Forschungsquartett | Data Mining mit SIREN

Das Wissen der Sirenen

Eine neue Software entwickelt aus großen Datenbeständen eigenständig Hypothesen. Das war bislang menschlichen Wissenschaftlern vorbehalten.

Data Mining Tool erkennt Aussagen in Datensätzen

Sirenen sind in der antiken Mythologie Mischwesen aus Frauen und Vögeln. Ihr überirdisch schöner Gesang lockt Seefahrer ins Verderben. Nach Homer verfügen die Sirenen aber auch über vollkommenes Wissen über die Welt. Die Data Mining Software SIREN scheint genau dafür programmiert worden zu sein. Wer sie mit Daten füttert, dem zeigt sie die daraus resultierenden möglichen Schlussfolgerungen.

SIREN stellt Arbeitsablauf der Wissenschaft auf den Kopf

Für gewöhnlich gehen Wissenschaftler mit Daten so vor: Sie bilden zuerst eine Hypothese und überlegen dann, welche Daten für oder gegen diese Hypothese sprechen. Anschließend prüfen sie, welche Schlussfolgerung sich daraus ziehen lässt. SIREN dreht dieses Vorgehen um. Denn die Software durchsucht eigenständig beliebige Datensätze auf potentiell vorhandene Aussagen. Die Hypothesen bildet sie selbst. Dann können die Wissenschaftler diese Hypothesen ansehen, sie bewerten oder mit anderen Daten abgleichen.

Kern des Ganzen: Redescription Mining

Dazu verwendet SIREN Algorithmen, die als redescription mining bezeichnet werden. Das lässt sich ungefähr mit „Graben nach Alternativbeschreibungen“ übersetzen. Die Software sucht nach Objekten, die sich auf unterschiedliche Weise beschreiben lassen. Dadurch kann sie Verbindungen zwischen verschiedenen Datensätzen ziehen und diese miteinander kombinieren. So können die USA in einem Datensatz als Atommacht beschrieben werden, im nächsten als ständiges Mitglied des UN-Sicherheitsrats oder als demokratisches Land ohne kommunistische Vergangenheit. SIREN fasst die Bezeichnungen zusammen und fragt nach Zusammenhängen.

Neue Hypothesen in Sekunden

In Testläufen haben die Entwickler gemeinsam mit Ökologen einen Datensatz mit den Lebensräumen von Säugetieren mit einem anderen, eigenständigen Datensatz über Klimadaten verbinden lassen. Weil beide Datensätze Geodaten enthalten, also Koordinaten auf der Weltkarte, konnte SIREN daraus Hypothesen entwickeln, wie das Klima mit dem Lebensraum zusammenhängt. Auf Anhieb entwickelte SIREN Hypothesen, die den Ökologen noch unbekannt waren.

Mike Sattler hat sich die Software und das „Redescription Mining“ von Entwickler Pauli Miettinen vom Max-Planck-Institut für Informatik (MPI-INF) erklären lassen.

Im besten Fall übernimmt der Computer nur den langweiligen Teil der Arbeit. SIREN schlägt einfach Hypothesen vor. Zumindest heute braucht man noch immer einen Menschen, der sich das anschaut.Dr. Pauli Miettinen 

Redaktion: Mike Sattler

Moderation