Tool des Fraunhofer FKIE erleichtert die Arbeit der Krebsregister
Wie können die Krebsregister aus der Flut der Daten zu Krebserkrankungen, die sie jeden Tag erreichen, den bestmöglichen Nutzen für Forschung und Therapie ziehen? Dies war die Aufgabe im Projekt »TeMeK«, das vom Bundesministerium für Gesundheit gefördert und nun erfolgreich abgeschlossen wurde. Das Ergebnis: ein Tool, das mithilfe von Text Mining und Data Science die Dokumentation unterstützt und den Nutzen fördert. Es erspart den Dokumentaren nicht nur Zeit, sondern trägt auch zur Standardisierung bei und bringt Aspekte zum Vorschein, die bisher in der Datenflut untergegangen waren. Die Zusammenarbeit wird daher fortgeführt.
Die Molekulargenetik gewinnt immer mehr Relevanz in Diagnostik, Prognose und Therapie von Krebserkrankungen. Denn von der Art der Genmutation hängt ab, auf welche Therapie der Krebs am besten anspricht. Daher werden seit einigen Jahren auch Befunde aus Gensequenzierungen der Tumorzellen an die Krebsregister der Länder gesandt. Dort laufen alle Daten zu Tumorerkrankungen zusammen und bilden die Grundlage für Auswertungen, die zur Verbesserung der Versorgung von Krebspatienten beitragen. Bei den ärztlichen Befunden handelt es sich jedoch oft um unstrukturierten Text, jeder und jede notiert die Genmutation auf eine andere Art und Weise. Es liegt ein Schatz an unentdecktem Wissen in den Daten, der mithilfe von Big-Data-Analysen gehoben werden kann. Dies kann die Behandlung von Krebs langfristig verbessern.
Ziel des Projekts »TeMeK«, kurz für »TextMining von Meldungstexten für einheitliche Klassifikationen«, war es daher, die Befunde mithilfe von KI-Methoden in strukturierten, maschinenlesbaren Text zu überführen. Hierfür entwickelten die Data Scientists des Fraunhofer FKIE gemeinsam mit Partnern und in Abstimmung mit dem Krebsregister Baden-Württemberg ein Tool, das Informationen aus diesen komplexen Freitexten effizient extrahiert, validiert und einheitlich schematisiert. Theresa Nindel, die im Bereich »Text Processing« arbeitet: »Es wurden ca. 21.000 Befunde aus zwei Jahren ausgewertet, darin ca. 700.000 Aussagen zu Genen in 10.000.000 Wörtern identifiziert und diese zu ca. 43.000 Mutationsbeurteilungen kondensiert.«
Das Tool schließt damit eine kritische Lücke in der Verarbeitung der Daten: Die Aufbereitung der Informationen sorgt dafür, dass sie quantitativ ausgewertet werden können. Durch die Automatisierung dieses Schritts erspart das Tool den Dokumentaren viel Zeit in der Bearbeitung. »Das Projekt zeigt, wie wissenschaftliche Methoden und Registerpraxis zusammenwirken können: effizientere Prozesse, bessere Datenqualität und mehr Vergleichbarkeit. Deshalb möchten wir die Zusammenarbeit auch nach Projektende fortführen«, erklärt Prof. Dr. Marco Halber vom Krebsregister Baden-Württemberg.
Auch konnte die Arbeit der FKIE-Wissenschaftlerinnen und -Wissenschaftler wichtige Hinweise darauf geben, wie die Beschreibung der Genmutationen vereinheitlicht werden kann. »Das Projekt hat die Standardisierung der Notationen auf Befund- und Dokumentationsebene vorangebracht«, so Dr. Hanna Geppert, Projekt- und Gruppenleiterin am Fraunhofer FKIE, »das wurde seitens der Dokumentare als weiterer großer Mehrwert benannt.« Schließlich kamen durch die Standardisierung und Automatisierung Aspekte in den Daten zum Vorschein, die bisher in der Datenflut untergegangen sind. Die beteiligten Krebsregister – neben dem Krebsregister Baden-Württemberg auch das hessische Krebsregister, das klinische Krebsregister Brandenburg und Berlin sowie das Krebsregister Rheinland-Pfalz – sind von dem Ergebnis des Projekts so überzeugt, dass die Zusammenarbeit nach Projektende unter Federführung des Krebsregisters Baden-Württemberg fortgeführt und das Ergebnis allen Krebsregistern in Deutschland bereitgestellt werden soll.
Letzte Änderung: