Kurationsprojekt zur Bündelung und Aufbereitung vorliegender Korpusressourcen zur gesprochenen Wissenschaftssprache aus dem GeWiss-Projekt und ihrer Integration in die CLARIN-Infrastruktur (F-AG 1, KP 2)

Das zweite Kurationsprojekt der F-AG 1, CLARIN-KP-GeWiss startete im April 2013. Das Projekt ist am Herder-Institut der Universität Leipzig angesiedelt und wird in Kooperation mit den CLARIN-Zentren am IDS Mannheim, an der Universität Leipzig und an der Universität Hamburg durchgeführt. Die kuratierten Korpusressourcen werden über das bereits bestehende Webportal des GeWiss-Korpus zugänglich sein. Zudem wird das IDS die Daten in seiner Funktion als CLARIN-Servicezentrum verfügbar machen.

Projektinhalt

Ziel des Kurationsprojekts CLARIN-KP-GeWiss ist es, die vorliegenden veröffentlichten und noch unveröffentlichten Korpusressourcen des GeWiss-Projekts zu bündeln und in CLARIN-kompatibler Form der wissenschaftlichen Öffentlichkeit zugänglich zu machen. Im Rahmen des trinationalen Projektes „Gesprochene Wissenschaftssprache kontrastiv: Deutsch im Vergleich zum Englischen und Polnischen“ (GeWiss) wurde zwischen 2009 und 2013 ein Vergleichskorpus zur gesprochenen Wissenschaftssprache des Deutschen, Englischen und Polnischen aufgebaut. Im März 2013 wurde das GeWiss-Kernkorpus veröffentlicht, welches zwei zentrale Genres der mündlichen Wissenschaftskommunikation umfasst: wissenschaftliche Vorträge und Prüfungsgespräche in den Sprachen Deutsch, Englisch und Polnisch, die in den akademischen Kontexten Deutschlands, Großbritanniens und Polens erhoben wurden. Im Rahmen der Kuration soll dieses um zwei weitere vorliegende Ressourcen, ein im bulgarischen akademischen Kontext aufgenommenes Teilkorpus deutschsprachiger studentischer Referate sowie ein im italienischen akademischen Kontext aufgenommenes Teilkorpus italienischsprachiger Konferenzvorträge vergrößert werden. Darüber hinaus sollen durch die Integration eines pragmatisch annotierten Teilkorpus die Abfragemöglichkeiten erweitert werden. Für alle Ressourcen werden die vorliegenden Metadaten in das CMDI-Format überführt. Es werden PIDs für die Teilkorpora und ihre Bestandteile registriert und die Ressourcen über das VLO recherchierbar gemacht.

Mit den GeWiss-Ressourcen wird der wissenschaftlichen Öffentlichkeit erstmals eine Datenbasis für die empirische Untersuchung gesprochener Wissenschaftssprache frei zur Verfügung gestellt. Es handelt sich hierbei um eine äußerst wertvolle Ressource, da die Erhebung und Transkription der mündlichen Sprachdaten mit sehr hohem Zeit- und Arbeitsaufwand verbunden sind und daher kaum in größerem Umfang im Rahmen einzelner Forschungsarbeiten bewältigt werden könnte. Das Kurationsprojekt leistet einen entscheidenden Beitrag für die Sicherstellung der umfassenden und dauerhaften Zugänglichkeit dieser Ressource und führt somit zu einer wesentlichen Verbesserung der Datengrundlage für die Erforschung der mündlichen Wissenschaftskommunikation.

Die im Zuge der Kuration geleisteten Arbeiten werden in Workflows dokumentiert, so dass eine infrastrukturelle Basis sowohl für die längerfristige Integration weiterer Datensammlungen als auch für die weitere Aufbereitung der Ressource zur Verfügung steht. Es wird damit der Weg geebnet für die Entwicklung der GeWiss-Ressource zu einem Referenzkorpus für die vergleichende Erforschung der gesprochenen Wissenschaftssprache.

Laufzeit

  • 01.04.2013 – 31.03.2014

Antragsteller

  • Prof. Dr. Christian Fandrych (Herder-Institut, Universität Leipzig)

Verantwortliche Institution

Ausführende Mitarbeiter

  • Daniel Jettka (HZSK, Universität Hamburg)
  • Cordula Meißner (Herder-Institut, Universität Leipzig)

Referenzen

  • Das GeWiss-Kernkorpus ist in einer Beta-Version über das Webportal https://gewiss.uni-leipzig.de zugänglich.
  • Daniel Jettka: Posterpräsentation zum Kurationsprojekt CLARIN-KP-GeWiss, CLARIN-D M24 Workshop, 27./28.06.2013, Stadsschouwburg Nijmegen.
  • Cordula Meißner, Daniel Jettka & Christian Fandrych: CLARIN-KP-GeWiss: Das zweite Kurationsprojekt der F-AG 1 „Deutsche Philologie“. In: CLARIN-D-Newsletter, Nummer 4, Mai 2013.
  • Christian Fandrych, Cordula Meißner & Adriana Slavcheva (2012): “The GeWiss Corpus: Comparing Spoken Academic German, English and Polish“. In: Schmidt, Thomas/Wörner, Kai (Hg.): Multilingual corpora and multilingual corpus analysis. Amsterdam: Benjamins. 319 – 337. (= Hamburg Studies in Multilingualism 14).
  • Christian Fandrych, Cordula Meißner & Adriana Slavcheva (i. Dr.): “Das Korpusprojekt „Gesprochene Wissenschaftssprache kontrastiv“ und seine Relevanz für die Vermittlung des Deutschen als Wissenschaftssprache”. In: Mackus, Nicole/Möhring, Jupp (Hg.): Wege für Bildung, Beruf und Gesellschaft - mit Deutsch als Fremd- und Zweitsprache. 38. Jahrestagung des Fachverbandes Deutsch als Fremdsprache an der Universität Leipzig 2011. Göttingen: Universitätsverlag.
  • Christian Fandrych, Cordula Meißner & Adriana Slavcheva (Hg.) (i. Vorb.): Gesprochene Wissenschaftssprache: Korpusmethodische Fragen und empirische Analysen. Heidelberg: Synchron-Verlag. (= Wissenschaftskommunikation).

Angliederung des Kurationsprojekts innerhalb der beteiligten Institutionen