ChatCorpus2CLARIN: Integration des Dortmunder Chat-Korpus in CLARIN-D

Projektinhalt

Im dritten Kurationsprojekt der CLARIN-D-Arbeitsgruppe 1 “Deutsche Philologie” (F-AG 1) werden das Dortmunder Chatkorpus, ein existierendes Korpus internetbasierter Kommunikation (computer-mediated communication, CMC), sowie Auszüge aus anderen CMC-Ressourcen neu strukturiert und an aktuelle Standards der Repräsentation von Korpora im Kontext der Digital Humanities angepasst. Ziel dieser Arbeiten ist es, die Voraussetzungen für die Integration linguistisch annotierter CMC-Ressourcen in die CLARIN-D-Korpusinfrastrukturen zu schaffen und die Möglichkeiten der korpusbasierten Erforschung linguistischer Besonderheiten in internetbasierter Kommunikation zu verbessern. Dafür sind im Wesentlichen drei Aufgaben zu bearbeiten: (1) Die Metadaten und die im Chat-Korpus schon vorhandenen Annotationen werden in ein TEI-konformes Repräsentationsformat überführt; (2) Die Korpusdaten werden um weitere linguistische Annotationen angereichert; (3) Die resultierende Ressource wird in die CLARIN-D-Korpusinfrastrukturen am Institut für Deutsche Sprache (IDS) und an der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW) integriert.

Die Integration in CLARIN-D wird es ermöglichen, Chat-Daten systematisch mit Sprachdaten aus Textkorpora und aus Gesprächskorpora zu vergleichen.

Die Ausgangsressource

Das Dortmunder Chat-Korpus (Beißwenger & Storrer 2008; Beißwenger 2013) wurde an der Technischen Universität Dortmund aus Eigenmitteln des Lehrstuhls für Linguistik der deutschen Sprache und Sprachdidaktik aufgebaut. Das Ziel des Korpusprojekts war es, eine Ressource für die Erforschung sprachlicher Besonderheiten und sprachlicher Variation in verschiedenen Nutzungskontexten internetbasierter Kommunikation zu schaffen. Das Korpus umfasst 478 Logfile-Dokumente mit ca. 140.000 Postings bzw. ca. 1 Mio. Tokens aus deutschen Chat-Mitschnitten, die die Nutzung von Chat-Software in verschiedenen Anwendungskontexten dokumentieren (Chat-Kommunikation im Freizeitbereich, Beratungschats, Chats im Kontext von Lernen und Lehren, moderierte Chats in Medienkontexten). Das Korpus ist in einem XML-Format (‚ChatXML‘) annotiert, das die folgenden Phänomene erfasst: (1) die grundlegende Struktur und Eigenschaften von Chat-Logfiles und -postings, (2) ausgewählte „netzsprachliche“ Phänomene wie Emoticons, Aktionswörter, Adressierungen, Nicknames und Akronyme, (3) ausgesuchte Metadaten über die Chat-Nutzer. Seit 2005 wird das Korpus unter http://www.chatkorpus.tu-dortmund.de als XML-Version mit einer speziellen Such- und Auswertungssoftware zum Download bereitgestellt; außerdem können die Chat-Mitschnitte auch online eingesehen werden. Die Ressource wurde bereits in verschiedenen Lehr- und Forschungskontexten genutzt; im CLARIN-D-Kontext war das Korpus eine der Ressourcen des Kurationsprojekts Linguistic Annotation of Non-standard Varieties – Guidelines and Best Practices“ der Arbeitsgruppe 7 .

Arbeitspakete

(1) TEI-Repräsentation: Für die Darstellung des Korpus in TEI nutzen wir die Schema-Entwürfe und -modelle, die in der TEI Special Interest Group (SIG) „Computer-mediated communication“ entwickelt wurden, die an einem Vorschlag für einen TEI-Standard für CMC-Genres arbeitet. Zu diesem Zweck werden die in der Ressource schon vorhandenen ChatXML-Annotationen in eine TEI-Repräsentation überführt und mit zusätzlichen strukturellen Annotationen und Metadaten angereichert.

(2) Zusätzliche linguistische Annotationen: Um die Möglichkeiten für linguistische Suchanfragen zu erweitern, werden die bisher im Korpus verfügbaren CMC-spezifischen Annotationen um Part-of-Speech-Annotationen (PoS) ergänzt. Für das PoS-Tagging nutzen wir eine Version des STTS-Tagsets für die deutsche Sprache, die für die linguistischen Besonderheiten von CMC („STTS 2.0“, Beißwenger et al. 2015) angepasst wurde. Diese ist mit dem erweiterten STTS-Tagset kompatibel, das für das PoS-Tagging des Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK) am IDS Mannheim genutzt wird. Bezüglich der automatischen PoS-Annotation kooperiert das Projekt mit dem BMBF-Projekt „Schreibgebrauch“ der Universität des Saarlandes.

(3) Integration in CLARIN-D: Die resultierende Ressource wird in die CLARIN-D-Infrastrukturen integriert. Zur Integration gehört u.a. die Aufnahme in die jRepositorien zur Langzeitarchivierung am IDS und an der BBAW sowie die Entwicklung einer CMDI-Repräsentation von Metadaten, die via OAI-PMH und über das CLARIN VLO (Virtual Language Observatory) abrufbar sein wird. Die Ressource wird via PIDs adressierbar, über die CLARIN-D Federated Content Search durchsuchbar und über Webservices zugänglich sein. Die Bedingungen für die Lizensierung der Korpusressource für die Verwendung im wissenschaftlichen Kontext werden durch ein Rechtsgutachten geklärt.

Die Zielressource

Nach ihrer Integration in die CLARIN-D-Infrastrukturen wird die Ressource die folgenden Mehrwerte aufweisen:

  • Erweiterung der Möglichkeiten des Zugriffs und der Durchsuchbarkeit (inkl. Durchsuchbarkeit anhand von Metadaten);
  • Interoperabilität mit anderen in TEI repräsentierten Korpusressourcen sowie Annotations- und Analysewerkzeugen, die das TEI-Format unterstützen;
  • Erweiterung der Abfragemöglichkeiten (PoS-Tags, normalisierte Schreibweisen);
  • Interoperabilität mit anderen Korpusressourcen, die mit STTS annotiert wurden;
  • Erweiterung der Möglichkeiten für korpusgestützte Analysen zur Sprachverwendung in der internetbasierten Kommunikation im Vergleich mit redigierten Texten und mit der gesprochenen Sprache (→ Text- und Gesprächskorpora in den Korpusinfrastrukturen der BBAW und des IDS).

Dauer

01.05.2015 – 29.02.2016

Antragsteller

  • Prof. Dr. Michael Beißwenger (jetzt Universität Duisburg-Essen)
  • Prof. Dr. Angelika Storrer (Universität Mannheim)

Verantwortliche Institutionen

Kooperationspartner

Ausführende Arbeitsgruppe

  • Prof. Dr. Michael Beißwenger (Universität Duisburg-Essen)
  • Eric Ehrhardt, M.A. (Universität Mannheim)
  • Axel Herold (BBAW)
  • Dr. Harald Lüngen (IDS Mannheim)
  • Prof. Dr. Angelika Storrer (Universität Mannheim)

Referenzen

  • Beißwenger, Michael; Ehrhardt, Eric; Horbach, Andrea; Lüngen, Harald; Steffen, Diana; Storrer, Angelika (2015): Adding Value to CMC Corpora:
    CLARINification and Part-of-Speech Annotation of the Dortmund Chat Corpus. In: Proceedings of the 2nd Workshop on Natural Language Processing for
    Computer-Mediated Communication / Social Media (NLP4CMC2015). Essen, S. 12-16. Online (PDF): https://sites.google.com/site/nlp4cmc2015/proceedings
  • Beißwenger, Michael (2013): Das Dortmunder Chat-Korpus. In: Zeitschrift für germanistische Linguistik 41 (1), 161-164.
  • Beißwenger, Michael; Ermakova, Maria; Geyken, Alexander; Lemnitzer, Lothar; Storrer, Angelika (2012): A TEI Schema for the Representation of Computer-mediated Communication. In: Journal of the Text Encoding Initiative (jTEI) 3. http://jtei.revues.org/476 (DOI: 10.4000/jtei.476).
  • Beißwenger, Michael; Ermakova, Maria; Geyken, Alexander; Lemnitzer, Lothar; Storrer, Angelika (2013): DeRiK: A German Reference Corpus of Computer-Mediated Communication. In: Literary and Linguistic Computing 2013 (doi: 10.1093/llc/fqt038). https://academic.oup.com/dsh/article-lookup/doi/10.1093/llc/fqt038
  • Beißwenger, Michael; Bartz, Thomas; Storrer, Angelika; Westpfahl, Swantje (2015): Tagset und Richtlinie für das PoS-Tagging von Sprachdaten aus Genres internetbasierter Kommunikation. Guideline Document, Dortmund 2015. https://sites.google.com/site/empirist2015/home/annotation-guidelines
  • Beißwenger, Michael; Storrer, Angelika (2008): Corpora of Computer-Mediated Communication In: Lüdeling, Anke; Kytö, Merja (eds.): Corpus Linguistics. An international Handbook. Vol 1, Berlin (de Gruyter), 292-308.
  • Margaretha, Eliza; Lüngen, Harald (2014): Building Linguistic Corpora from Wikipedia Articles and Discussions. In: Journal of Language Technology and Computational Linguistics (JLCL) 29 (2), 59-82. http://jlcl.org/content/5-allissues/5-Heft2-2014/3MargarethaLuengen.pdf