Das Deutsche Spracharchiv verwaltet zur Zeit 28 Korpora aus Dokumentations- und Forschungsprojekten.
Über die Liste der Korpora des gesprochenen Deutsch sind die Details des inhaltlichen Aufbaus des Archivs zugänglich.
Der formale Aufbau und die technischen Verfahren des Archivs müssen das Archivmaterial langfristig unverfälscht konservieren und einem breiten Interessentenkreis zugänglich machen. Diese Anforderungen führten im DSAv zur Einführung einiger technischer Konventionen der Datenorganisation und der Datenformate für digitalisierte Archivmaterialien.
Bei der Orientierung in den Materialien sollten folgende Merkmale des aufbereiteten Archivs bekannt sein:
Korpora |
Korpora sind zusammenhängende Sammlungen von Sprachmaterial, deren Bestandteile thematisch, methodisch, geographisch, historisch oder aus noch anderen Gründen als Einheit behandelt werden. |
Interaktionen |
Innerhalb von Korpora werden Interaktionen, das sind die originalen Ereignisse, bei denen das Aufgenommene und Transkribierte gesprochen wurde, verwaltet.
|
Aufnahmen |
Zu jeder Interaktion gibt es eine Aufnahme (akustische Aufzeichnung) der gesprochenen Sprache. Durch Nachbearbeitung entstanden aus einem Original Kopien und Ausschnitte. Die Aufnahmen liegen in unterschiedlichen technischen Formaten vor. Das reicht von alten analogen Magnetbandaufzeichnungen über digitale DAT-Aufzeichnungen, bis hin zu CD-Audio oder Ton-Dateien, die im Computer genutzt werden können. Zu einigen Korpora gehören auch Filmaufzeichnungen (Aufnahmen oder Fernsehmitschnitte). Die Tonaufnahmen werden i.d.R. konserviert in RIFF-WAVE-formatigen Dateien ohne jegliche Komprimierung d.h. in schlichtem PCM-Format und mit 44 100 Hz, 16Bit, mono oder (selten) stereo. Daraus lassen sich bei Bedarf für bestimmte Zwecke auch datenreduzierte Formate (MP3 usw.) generieren. Siehe dazu auch die Hinweise zur Technik. |
Transkriptionen |
Von vielen Aufnahmen von Interaktionen wurden Transkriptionen angefertigt. In ihnen wird die gesprochene Sprache schriftlich festgehalten. Das erfolgt in aller Regel anders als bei schlichten Diktat-Mitschriften nach besonderen Konventionen, die für die Analyse des Gesprochenen hilfreich sind. Transkripte liegen im Archiv handschriftlich, maschinenschriftlich aber auch in Form von Dateien unterschiedlicher Formate vor. Die vorfindlichen Transkriptionskonventionen sind recht unterschiedlich und bestenfalls innerhalb eines Korpus homogen. Im Zuge der Aufbereitung für den Datenverarbeitungszugriff erfolgt eine Vereinheitlichung der Speicherformate. Die Transkriptionskonventionen wurden nur marginal verändert (z.B. die Notation der Sprecher), damit keine Informationen verloren gehen. Um nicht allzu häufig mit der Notwendigkeit konfrontiert zu werden, die Materialien umformatieren zu müssen, werden Transkripte in einem DSAv-internen Speicherformat archiviert, das auf einer speziellen Beschreibung mittels XML basiert. Da sich dieses Format mangels verfügbarer Programme nicht direkt verwenden lässt, werden für die Nutzung der Transkripte alle aktuell benötigten Formate daraus abgeleitet. Siehe dazu auch die Hinweise zur Technik. |
Alignment |
Bei einigen der Interaktionen, zu denen das Transkript und die Tonaufnahme als Datei vorliegt, wurde ein Alignment des Transkripttextes mit der Tonaufnahme vorgenommen. Dabei wird für jedes Wort des Transkripts der Zeitpunkt in der Aufnahme errechnet und vermerkt. Aus solcherart synchronisierten Transkripten läßt sich mit geeigneter Computerunterstützung zu jeder Fundstelle im Text gezielt der Ton wiedergeben.
|
Volltext-Recherche |
Mit der Datenbank "Gesprochenes Deutsch" können in der Dokumentation und in den Transkripten Volltext-Recherchen durchgeführt werden. Bei solchen Suchanfragen wird im Hintergrund die COSMAS II -Technik, die am IDS entwickelt wurde, verwendet. Es ist derzeit erst ein Teil des Leistungsumfangs von COSMAS-II für die Interaktionen des DSAv verfügbar. Nähere Details dazu stehen in den "Hinweisen zur Syntax von Volltext-Recherchen" und auf der COSMAS II -Leitseite.
|
"Ton und Text" |
Transkripte werden u.a. in das WinWord-Format konvertiert. Damit lassen sie sich auch ohne Internet-Verbindung zum DSAv-Server verwenden. Wenn auch die kompletten Tonaufnahmen (in unkomprimierter Form) auf dem eigenen Arbeitsplatzrechner vorliegen - das DSAv stellt die bei Bedarf zur Verfügung -, kann man auch dort bei alignierten Transkripten synchron zum Transkript in der Tonaufnahme navigieren. Das funktioniert recht effizient mit Hilfe des Tonwiedergabeprogramms "Ton und Text"-synchron und seinen Word-Makros. Siehe dazu auch die Hinweise zur Technik.
|
Konventionen für Namen |
Die hierarchische Struktur von Korpus-Interaktion-Tonaufnahme-Transkript bildet die Grundlage für die Namenskonventionen der Materialien im Archiv. Jedes Korpus wird mit einer Korpus-Kennung, die aus zwei Buchstaben besteht bezeichnet. Die Buchstaben leiten sich mnemotechnisch aus ihren Klartext-Bezeichnungen ab (z.B. ZW für Zwirner-Korpus). Jede Interaktion ist über eine Kennung identifizierbar, die aus den beiden Buchstaben des zugehörigen Korpus (Korpus-Kennung) und drei weiteren Zeichen zur fortlaufenden Zählung (also i.d.R. Ziffern) besteht. Tonaufnahmen und Transkripte werden gekennzeichnet mit der Kennung der Interaktion. DSAv-intern werden weitere Kennzeichnungen zur Unterscheidung von Ausschnitten, den Bearbeitungsstand oder Versionen als Bestandteile des Namen verwendet. Kennungen für Aufnahmen oder Transkripte haben also die Form: kknnn mit kk für die Korpus-Kennung (z.B. FR), und nnn für die fortlaufende Zählung (z.B. 126), Beipiel: FR126 für ein Transkript der Interaktion FR126 aus dem Freiburger Korpus. Materialien, die in Form von Dateien vorliegen, erhalten diese Kennungen im Dateivornamen. Die Endungen der Dateien folgen den Gepflogenheiten, die durch die verwendeten Programme nahegelegt werden, also WAV für Tondateien im RIFF-WAVE-Format, oder DOC für Transkriptdateien im Word-Format. |