Nachhaltige Datenformate

  Hauptseite des SFB
  SFB Korpora
  Abfragewerkzeuge
  Projekt C1
  Projekt C2
  TUSNELDA Annotationsstandard
English

TUSNELDA

TUSNELDA (Tübinger Sammlung nutzbarer empririscher Datentypen) ist der im Projekt C1 entwickelte übergreifende Annotationsstandard für die Korpora, die im Sonderforschungsbereich 441 erstellt und annotiert wurden. Der Annotationsstandard stellt die Kompatibilität der Korpora des SFB 441 untereinander her und ermöglicht die Wiederverwendbarkeit der Daten mit korpuslinguistischen Standardwerkzeugen. Der TUSNELDA-Standard ist dabei flexibel, sodass die Bedürfnisse der verschiedenen Projekte des SFB unter einen Hut gebracht werden können.

TUSNELDA besteht im Wesentlichen aus drei Komponenten:

In der letzten Förderphase des SFB wurden umfangreiche Erweiterungen an dem Format vorgenommen. Es ist nun möglich, sekundäre Relationen zwischen Knoten einer Baumbank auszudrücken (dies wird z.B. bei der Koreferenzannotation des TüBa-D/Z Korpus (Projekt A1) eingesetzt). Weiterhin wurde das Format auf zwei weitere Datentypen Sammlungen von Einzelsätzen sowie Lexika erweitert. Satzsammlungen wurden in den Projekten A3, B3, B10, B17 und B18 erstellt. Verschiedene Arten von Lexika sind ein Ergebnis der Korpusarbeit in den Projekten A2, A5, B6 und B11.

TUSNELDA bietet eine mächtige Abfragesprache, die hier dokumentiert ist.

GENAU

Die GEneralisierte NAchhaltigkeitsarchitekUr für linguistische Daten (GENAU) ist ein im Projekt C2 neu entwickeltes nachhaltiges Datenformat, welches die drei Annotationsformate TUSNELDA, EXMARaLDA (Extensible Markup Language for Discourse Annotation, SFB 538 "Mehrsprachigkeit" – Universität Hamburg) und das Austauschformat Paula (SFB 632 "Informationsstruktur", Universität Potsdam/Humboldt Universität Berlin) integriert. Die beiden letzgenannten Format unterstützen die Standoff-Annotation multimedialer Daten (z.B. Audio- bzw. Videodaten), sowie die Annotation sich überlappender Einheiten auf mehreren Ebenen. GENAU setzt zur Repräsentation solcher Daten Bäume mit mehreren Wurzeln (multi-rooted trees) ein.

Beschreibungen von GENAU sind auf der Publikationsseite des Projekts C2 zu finden.


Zuletzt aktualisiert am 10.03.2009