Play
Data Mining könnte die Wissenschaft neu gestalten. Foto: Harpy Siren by Carole Raddato von flickr | CC BY-SA 20

Forschungsquartett | Data Mining mit SIREN

Das Wissen der Sirenen

Eine neue Software entwickelt aus großen Datenbeständen eigenständig Hypothesen. Das war bislang menschlichen Wissenschaftlern vorbehalten.

Data Mining Tool erkennt Aussagen in Datensätzen

Sirenen sind in der antiken Mythologie Mischwesen aus Frauen und Vögeln. Ihr überirdisch schöner Gesang lockt Seefahrer ins Verderben. Nach Homer verfügen die Sirenen aber auch über vollkommenes Wissen über die Welt. Die Data Mining Software SIREN scheint genau dafür programmiert worden zu sein. Wer sie mit Daten füttert, dem zeigt sie die daraus resultierenden möglichen Schlussfolgerungen.

SIREN stellt Arbeitsablauf der Wissenschaft auf den Kopf

Für gewöhnlich gehen Wissenschaftler mit Daten so vor: Sie bilden zuerst eine Hypothese und überlegen dann, welche Daten für oder gegen diese Hypothese sprechen. Anschließend prüfen sie, welche Schlussfolgerung sich daraus ziehen lässt. SIREN dreht dieses Vorgehen um. Denn die Software durchsucht eigenständig beliebige Datensätze auf potentiell vorhandene Aussagen. Die Hypothesen bildet sie selbst. Dann können die Wissenschaftler diese Hypothesen ansehen, sie bewerten oder mit anderen Daten abgleichen.

Kern des Ganzen: Redescription Mining

Dazu verwendet SIREN Algorithmen, die als redescription mining bezeichnet werden. Das lässt sich ungefähr mit „Graben nach Alternativbeschreibungen“ übersetzen. Die Software sucht nach Objekten, die sich auf unterschiedliche Weise beschreiben lassen. Dadurch kann sie Verbindungen zwischen verschiedenen Datensätzen ziehen und diese miteinander kombinieren. So können die USA in einem Datensatz als Atommacht beschrieben werden, im nächsten als ständiges Mitglied des UN-Sicherheitsrats oder als demokratisches Land ohne kommunistische Vergangenheit. SIREN fasst die Bezeichnungen zusammen und fragt nach Zusammenhängen.

Neue Hypothesen in Sekunden

In Testläufen haben die Entwickler gemeinsam mit Ökologen einen Datensatz mit den Lebensräumen von Säugetieren mit einem anderen, eigenständigen Datensatz über Klimadaten verbinden lassen. Weil beide Datensätze Geodaten enthalten, also Koordinaten auf der Weltkarte, konnte SIREN daraus Hypothesen entwickeln, wie das Klima mit dem Lebensraum zusammenhängt. Auf Anhieb entwickelte SIREN Hypothesen, die den Ökologen noch unbekannt waren.

Mike Sattler hat sich die Software und das „Redescription Mining“ von Entwickler Pauli Miettinen vom Max-Planck-Institut für Informatik (MPI-INF) erklären lassen.

Dr. Pauli Miettinen - leitet am Max-Planck-Institut für Informatik den Bereich Data Mining. Foto: (c) Tom Pingel / MPG

leitet am Max-Planck-Institut für Informatik den Bereich Data Mining. Foto: (c) Tom Pingel / MPG
Im besten Fall übernimmt der Computer nur den langweiligen Teil der Arbeit. SIREN schlägt einfach Hypothesen vor. Zumindest heute braucht man noch immer einen Menschen, der sich das anschaut.Dr. Pauli Miettinen
Forschungsquartett | SIREN 06:37

Redaktion: Mike Sattler

Volles Programm, (aber) null Banner-Werbung

Seit 2009 arbeiten wir bei detektor.fm an der digitalen Zukunft des Radios in Deutschland. Mit unserem Podcast-Radio wollen wir dir authentische Geschichten und hochwertige Inhalte bieten. Du möchtest unsere Themen ohne Banner entdecken? Dann melde dich einmalig an — eingeloggt bekommst du keine Banner-Werbung mehr angezeigt. Danke!

detektor.fm unterstützen

Weg mit der Banner-Werbung?

Als kostenlos zugängliches, unabhängiges Podcast-Radio brauchen wir eure Unterstützung! Die einfachste Form ist eine Anmeldung mit euer Mailadresse auf unserer Webseite. Eingeloggt blenden wir für euch die Bannerwerbung aus. Ihr helft uns schon mit der Anmeldung, das Podcast-Radio detektor.fm weiterzuentwickeln und noch besser zu werden.

Unterstützt uns, in dem ihr euch anmeldet!

Ja, ich will!

Ihr entscheidet!

Keine Lust auf Werbung und Tracking? Dann loggt euch einmalig mit eurer Mailadresse ein. Dann bekommt ihr unsere Inhalte ohne Bannerwerbung.

Einloggen