Zurück zur Projektseite

Kritik, Anregungen und weitere Seiten zu Korpora
gesprochener Sprache werden gerne entgegengenommen!
E-mail: franks@sfs.nphil.uni-tuebingen.de

Korpora gesprochener Sprache - Spoken Corpora

Alle aufgeführten Korpora enthalten Sounddateien.

Alle Sounddateien sind nach jeweils verschiedenen Kriterien annotiert.
(Im Hinblick auf die jeweilige Forschungsausrichtung)

Schwerpunkt der Forschung ist das phonetische Interesse.

Nur ein Korpus bietet die Möglichkeit, u.a. auch semantische Forschungen durchzuführen.

Für fast alle Korpora muß man eine Lizenz erwerben.

Korpora liegen zu folgenden Sprachen vor
(deutsch, englisch, schwedisch, französisch, katalanisch, italienisch, gälisch, amerikanisch-englisch, russisch)

1) Deutschland

Bayerisches Archiv für Sprachsignale
- - gesprochenes Deutsch (gelesen, spontane Sprache, Dialekt)
- - nicht alle frei zugänglich (Lizenzgebühren z.T.DM 8000,-)
- - hauptsächlich phonetische Annotation

2) Schweden

Daten aus dem Forschungsprojekt VaCoS
- - 10 Sprecher je 10 Minuten spontane Sprache (Monologe)
- - Voraussetzung ist das Softwarepaket Xwaves
- - Sprachsignal ist segmental, ortographisch prosodisch und nach Silbenclustern annotiert
The Swedish spoken language corpus at Göteborg University
- - Sprecher: 1 - 33
- - Topics: z.B. Diskussionen, Gerichtsgespräche, formales Treffen, Hotel, etc.
- - Überblick

3) Groß Britannien

British National Corpus (BNC)
- - a 100 million word collection of samples of written and spoken language
- - speziell ausgewiesen als Datenbank für linguistische, u.a. semantische Analysen
The Articulatory Database Registry (England)
[A] EUR-ACCOR
- - Sprachen: katalanisch, englisch, französisch, deutsch, irisch, gälisch, italienisch, schwedisch
- - Sprecher: 5-10 pro Sprache, jeweils 10 Aufnahmen des Materials
- - Inhalt: - 1.Nonsense items:
- Vowels /i,a,u/ in isolation VCV sequences, where C= /p,tb,t,d,k,s,z,n,l,S,T/ and the sequences /kl,st/; V = /i,a,u/.
- - 2.Real words:
- These match the nonsense sequences above as closely as possible. eg. Nonsense item /iti/ is matched by the english word "meaty".
- - 3.Sentences:
- A set of 14 short sentences designed to illustrate the main connected speech processes in the language (eg. assimilations, weak forms ..). In some languages, items from the real word corpus appear in the sentences.
[B] MOCHA-TIMIT
- - 1.Sentences:
- A set of 460 sentences designed to include the main connected speech processes in English (eg. assimilations, weak forms ..). Orthography
- Subjects: 2 speakers, 1 male and 1 female are currently available but another 38 are planned to be completed by May 2001. The subjects have a variety of accents of English.
The TRAINS Spoken Dialogue Corpus
- - Korpus besteht aus Gesprächen (aufgabenorientiert)
- - Korpora sind nach Gesprächskriterien annotiert
The Bergen Corpus of London Teenage Language COLT
- - Teenager im Alter zwischen 13 und 17 Jahren
- - Korpora orthographisch transkribiert und Wortklassen Tagging

4) USA

The Linguistic Data Consortium
- - Corpora zu American English (bestehend aus Wörtern)
- - Corpora zur Sprecheridentifikation (Wörter, Sätze, Reiseinformationen)
- - Lizenzgebühren

5) Russisch

Datenbank zum Russischen
- - akustische Datenbank des Russischen
- - Wortlisten
- - 4 Sprecher: jeweils 1 männlich / weiblich aus Moskau / St. Petersburg
- - Hier geht's los

Zurück zur Projektseite

Frank Schlichting

Last modified: Wed Apr 12 09:48:29 MET DST

Korpora gesprochener Sprache - Spoken Corpora

1) Deutschland

Bayerisches Archiv für Sprachsignale

2) Schweden

Daten aus dem Forschungsprojekt VaCoS

The Swedish spoken language corpus at Göteborg University

3) Groß Britannien

British National Corpus (BNC)

The Articulatory Database Registry (England)

[A] EUR-ACCOR

[B] MOCHA-TIMIT

The TRAINS Spoken Dialogue Corpus

The Bergen Corpus of London Teenage Language COLT

4) USA

The Linguistic Data Consortium

5) Russisch

Datenbank zum Russischen