Korpusaufbereitung, -annotation und -recherche

Erhard Hinrichs, Laura Kallmeyer, Frank Henrik Müller, Ilona Steiner, Tylman Ule

In diesem Vortrag konzentrieren wir uns auf die beiden Bereiche Korpusaufbereitung und -annotation einerseits und Korpusrecherche andererseits. Der Vortrag behandelt insbesondere syntaktische Annotation bzw. deren Vorstufen und die Suche nach bestimmten syntaktischen Strukturen in einem Korpus. Eine adäquate Aufbereitung elektronischer Korpora ist selbstverständlich Voraussetzung für komplexere Recherchemöglichkeiten.

Im ersten Teil des Vortrags wird ein System zur automatischen Annotation von Korpora vorgestellt, in welchem verschiedene Stufen der linguistischen Annotation integriert werden können. Wir gehen hierbei hauptsächlich auf zwei Komponenten ein: die Annotation von 'Named Entities' und die Annotation von 'Chunks'.

Die Named Entity-Komponente wird als Vorstufe für die Chunk-Analyse verwendet und umfaßt Kategorien wie z.B. Datums- bzw. Zeitangaben, Eigennamen, numerische Ausdrücke und Maßangaben. Bei diesen Kategorien handelt sich um eigenständige Subsysteme, die modular implementiert werden und dadurch die Annotation von komplexeren syntaktischen Strukturen (Chunks und Phrasen) erleichtern. Zudem kann in derart annotierten Texten direkt nach Named Entity-Kategorien für empirische Zwecke gesucht werden.

Eine weitere Komponente der Korpusannotation ist die Chunk-Analyse. Chunks werden definiert als die nicht-rekursiven, ununterbrochenen Kernstücke von Phrasen, wobei die syntaktischen Ergänzungen der Köpfe ebenfalls nicht Teil der Chunks sind. Die Chunk-Analyse wird vor einer Global-Parse-Analyse durchgeführt. Dies hat verschiedene Vorteile: Zwar liefert die Annotation von Chunks zunächst weniger Informationen als eine globale Analyse, jedoch läßt sich auf der Ebene der Chunks mit größerer Genauigkeit annotieren. Zudem liefert ein Chunk-Parser, wie er hier vorgestellt wird, für jede Struktur eine Ausgabe, während bei einer globalen Analyse oftmals untergeordnete Strukturen verworfen werden, weil sie nicht in größere Strukturen eingebettet werden können. Die Trennung der Chunk-Ebene von der Global-Parse-Ebene läßt sich weiterhin durch ihre theoretischen Unterschiede begründen.

Im zweiten Teil des Vortrags wird ein von Laura Kallmeyer entwickeltes Anfragetool für syntaktisch annotierte Korpora vorgestellt. Das Tool wurde zunächst (in einer noch etwas eingeschränkten Fassung) für die in Tübingen annotierten Verbmobil Baumbanken implementiert. Es erlaubt, in den Bäumen des Korpus zu suchen nach Wörtern, syntaktischen Kategorien, grammatischen Funktionen und den Beziehungen (unmittelbare) Dominanz und lineare Präzedenz zwischen Knoten. Das Tool ist folgendermaßen aufgebaut: Eine Initialisierungsroutine extrahiert zunächst Paare von Knoten mit den relevanten Informationen aus dem Korpus und legt sie in einer relationalen Datenbank ab. Anschließend können Anfragen an das Korpus in einer Baumbeschreibungssprache formuliert werden. Diese Anfragen werden von dem Anfragetool in eine SQL-Anfrage übersetzt und auf der Datenbank ausgewertet.