Die automatische Zusammenfassung von Texten wird schon
seit fast fünfzig Jahren erforscht. Die vorherrschende Methode basiert auf einfachen
statistischen Verfahren: Sie berechnet die Summe der Wichtigkeit aller Wörter
in einem Satz, zieht die Sätze mit der höchsten Summe heraus und fasst den Text
dadurch zusammen. Die computerlinguistische Forschung hat diese Methode mittlerweile
verfeinert, nicht aber grundsätzlich geändert.
Gesprochene Sprache hat jedoch ihre eigenen Gesetze. Wir sprechen
ohne Punkt und Komma. Wenn wir die Aufzeichnung eines unserer eigenen Gespräche
hören, stellen wir schnell fest, dass wir uns häufig selbst und gegenseitig
unterbrechen, dass wir Sätze nicht vollständig aussprechen, dass wir uns selbst
korrigieren, Wiederholungen einfügen oder Denkpausen mit „Ähs“ füllen. Um Gespräche
mit computerlinguistischen Methoden sinnvoll weiterzuverarbeiten, müssen all
diese Störphänomene zunächst erkannt und gegebenenfalls entfernt werden. Erst
dann können herkömmliche Verfahren zur automatischen Textzusammenfassung auch
auf Gespräche angewendet werden.
Außerdem werden in Dialogen Verweiswörter, sogenannte Anaphern,
viel häufiger als in Texten verwendet, zum Beispiel Personalpronomen wie „es“,
„sie“ und „er“, oder Demonstrativpronomen wie „diese“ und „das“. Während solche
Ausdrücke in Texten vorwiegend dazu verwendet werden, um auf konkrete Dinge
zu verweisen, gibt es in Dialogen viele Pronomen, die sich auf abstrakte Dinge
beziehen, etwa auf Tatsachen („Das glaube ich nicht.“) oder auf Äußerungen
im Dialog selbst („Können Sie das noch einmal wiederholen?“). Ohne die
verschiedenen Arten von Pronomen voneinander zu unterscheiden und aufzulösen,
können Gespräche nicht sinnvoll zusammengefasst werden, so die These der Wissenschaftler
von EML Research. Mit Pronomen tun sich sprachverstehende Computersysteme aber
sehr schwer, weil ihnen das Wissen um den Gesamtzusammenhang fehlt, in dem die
Aussage steht. Ein Ziel der Forschung ist es deshalb, dass der Computer lernt,
die Pronomen in den Kontext einzuordnen. Wie auch bei der automatischen Zusammenfassung
wenden die EML Research-Wissenschaftler hierfür quantitative oder statistische
Verfahren an, die Muster in der Sprache erkennen. Der Vorteil dieser Methode
liegt darin, dass sie unabhängig von einem eng begrenzten Thema auf ganz unterschiedliche
Gespräche angewendet werden kann. Der Computer muss nur mit möglichst vielen
Gesprächen „gefüttert“ und so „trainiert“ werden.
Gegenwärtige Spracherkennungssysteme sind indes noch nicht so
weit entwickelt, dass der Computer mit spontanen Äußerungen zu beliebigen Themen
„gefüttert“ werden kann, die in alltäglichen Diskussionen vorkommen. Deshalb
arbeiten die EML Research-Wissenschaftler mit einer Aufzeichnung von 72 Stunden
gesprochener Dialoge, die das International Computer Science Institute (ICSI)
in Berkeley, USA, aufgebaut hat. Die Gespräche sind bereits verschriftlicht.
Damit der Computer aus ihnen lernen kann, müssen sie von Hand mit linguistischen
und anderen Informationen angereichert, das heißt annotiert werden. Die annotierten
Texte fließen wieder zurück in das ICSI Meeting-Corpus und stehen damit auch
anderen Computerlinguisten zur Verfügung. Mit den annotierten Texten wird der
Computer dann „trainiert“. Als Abschluss des Projekts „DIANA-Summ“ ist die Entwicklung
einer Komponente geplant, die mit Hilfe eines Spracherkenners die Verschriftlichung
der Gespräche selbst durchführt.
Dadurch könnte das System vollständig automatisch Protokolle
erstellen. Beim gegenwärtigen Stand der Technik wird es aber wohl noch einige
Jahre dauern, bis ein solches System reibungslos arbeiten kann.
Die EML Research gGmbH (www.eml-research.de)
ist ein gemeinnütziges Forschungsinstitut für Grundlagenforschung in der angewandten
Informatik. Ein Hauptschwerpunkt der Forschung liegt in der Computerlinguistik.
Die Forscher arbeiten eng mit Universitäten zusammen. Die EML Research gGmbH
wird von der Klaus Tschira Stiftung gGmbH (KTS) (www.kts.villa-bosch.de)
gefördert. Forschungsprojekte des Instituts werden auch durch die Europäische
Union, die Deutschen Forschungsgemeinschaft (DFG) und das Bundesministerium
für Bildung und Forschung (BMBF) unterstützt.