Wortartentagging für die lexikographische Recherche

Wortartentagging für die lexikographische Recherche

Moderne Lexikographie ist heute in der Regel korpusbasiert. Die meisten uns bekannten größeren lexikographischen Vorhaben nutzen meist sehr große Textkorpora als Grundlage der lexikographischen Beschreibung ihrer Stichwörter. Anders ausgedrückt: die Benutzer von Wörterbüchern erwarten zu Recht, verlässliche und geprüfte Informationen vorzufinden. Eine Vorverarbeitung der Korpora - das Wortartentagging - ist in diesem Prozess unbedingt erforderlich.

Was ist Wortartentagging?

Mit Wortartentagging bezeichnet man ein Verfahren, bei dem jedem Wort in einem Korpus eine Etikette angehängt wird. Diese Etikette bezeichnet die Wortart bzw. Wortklasse, die diesem Wort in dem Kontext, in dem es verwendet wurde, zugeschrieben werden kann. Grundlage dieser Etikettierung ist eine endliche und meistens kleine Menge von Etiketten (ein Tagset). Dieses umfasst typischerweise die Wortarten, die aus den traditionellen Grammatiken für die jeweilige Sprache bekannt und gebräuchlich sind. Für das Deutsche sind dies zum Beispiel Substantiv, Verb, Adjektiv, Adverb, Pronomen und Tags für weitere Funktionswörter. Hinzu kommen Etiketten für Erscheinungen bzw. Klassen, die außerhalb des Fokus traditioneller Grammatiken liegen (für Mehrwortausdrücke, fremdprachiges Material u. Ä.). Kürzere Texte bzw. kleine Korpora können von Hand getaggt werden, für größere Korpora ist die Verwendung eines automatischen Taggers unerlässlich. Ein umfangreiches, vollständig mit automatischen Methoden hinsichtlich der Wortarten annotiertes Korpus ist beispielsweise das Deutsche Textarchiv (DTA) der Berlin-Brandenburgischen Akademie der Wissenschaften, das auf vielfältige Weise innerhalb von CLARIN genutzt werden kann. Ein Satz mit Etikettierung könnte wie folgt aussehen:

Die/ART prinzipalischen/ADJA Rosenstöcke/NN brauchen/VVFIN Dünger/NE ./$. (Beispiel aus dem DWDS-Korpus: Strittmatter, Erwin: Der Laden, Berlin: Aufbau-Verl. 1983, S. 93)

Gibt man in die linguistische Suchmaschine des Digitalen Wörterbuchs der Deutschen Sprache (DWDS) eine entsprechende Folge von Wortartentags ein (siehe Liste der Links [1]), erhält man eine ganze Reihe literarischer Belege mit dem Verb vorangestellter komplexer Nominalphrase in Objektfunktion.

Nachdem es in der Frühzeit des Wortartentagging für deutschsprachige Korpora einige Versuche mit sehr großen und fein differenzierenden Tagsets gab (z.B. Wothke et al. 1993), hat sich als Standard (zumindest für das Neuhochdeutsche) mittlerweile das Stuttgart-Tübingen-Tagset (STTS, Schiller et al. 1999) herausgebildet, das seit seiner Veröffentlichung und ersten Verwendung nur moderat verändert wurde, im Wesentlichen um neuen Phänomenen und Korpusarten gerecht zu werden. Als Beispiel seien hier Phänomene und Korpora der internetbasierten Kommunikation und diachrone Korpora genannt (vgl. Journal for Language Technology and Computational Linguistcs, Heft 1/2013 für eine ausführliche Dokumentation der Ergebnisse).

Bei den automatischen Taggern ist eine Vielzahl von Alternativen verfügbar. Die meisten automatischen Tagger erzielen dabei ganz gute Ergebnisse bei einer Akkuratheit von weit über 90 Prozent (d.h. zwei bis fünf von hundert laufenden Wörtern werden falsch etikettiert). Am weitesten verbreitet im deutschsprachigen Raum ist der von Helmut Schmid in Stuttgart entwickelte TreeTagger von Helmut Schmid. Da die Wahl des richtigen Taggers aber auch von der Art des zu taggenden Textes oder Korpus abhängt, lohnt es sich, nach Alternativen zu suchen, die auf das Zielkorpus hin optimiert sind und daher bessere Ergebnisse versprechen oder mehrere Tagger anzuwenden (möglich ist dies z.B. in WebLicht, der in CLARIN entwickelten Arbeitsumgebung für die Annotation von Texten).

Wieso sollte ich meinen Text oder mein Korpus mit Wortarten annotieren?

Der Nutzen großer bis sehr großer, automatisch annotierter Korpora liegt u.a. darin, dass man in ihnen auch sehr seltene linguistische Konstruktionen finden kann. Eine entsprechende manuelle Durchsicht des Korpus ist wegen der Menge der Daten und der Seltenheit des Phänomens nicht möglich oder zu zeitaufwendig. Nur durch eine geeignete Erschließung des Korpus können solche theoriegeleiteten, korpusgestützten linguistischen Untersuchungen erfolgreich durchgeführt werden. Eine linguistische Theorie behauptet etwa die Grammatikalität einer bestimmten seltenen Konstruktion oder, im Gegenteil, ihre Ungrammatikalität. Besonders letzteres könnte durch hinreichende Evidenz, also eine ausreichend große Zahl überzeugender Belege aus einem Korpus, falsifiziert werden. Der entscheidende Punkt ist: kann man dieses linguistische Muster so abstrakt beschreiben, dass eine Suche nach Folgen von Wörtern und Wortarten solche Funde im Korpus zutage fördert? Oftmals ist das Inventar an automatischen Tags dafür zu klein und die damit kodierten linguistischen Unterscheidungen zu grob. So fehlen im STTS etwa feinere Unterscheidungen und damit Etiketten im Bereich der Partikel, wie im folgenden Beispiel, in dem wohl eine Modalpartikel ist und kein Adverb im engeren Sinn:

Das/PDS ist/VAFIN wohl/ADV wahr/ADJD ./$. (weitere Beispiele mit der entsprechenden Suchabfrage im DWDS [2])

Der erste, eher praktische Vorbehalt gegen die Verwendung Wortarten-annotierter Korpora ist also, dass ein bestimmtes Phänomen, das man untersuchen möchte, mit dem Schema von Wortartentags nicht abgebildet werden kann, weil ein passendes Wortartenetikett fehlt.

Damit im Zusammenhang wird oft eine grundlegendere Kritik an der linguistischen Annotation von Texten genannt. Jede Art der Etikettierung von Primärdaten stellt eine Interpretation dieser Primärdaten dar. Diese Art der Interpretation ist in der Software (sowie im Taggingverfahren und dem Tagset) eingebaut und nicht immer für den Anwender eines automatisch getaggten Korpus transparent. Die Annotation schiebt sich quasi zwischen den untersuchenden Forscher und die Primärdaten.

Beiden Seiten der Kritik, der grundsätzlicheren und der eher praktischen, kann man mit dem von Franco Moretti geprägten Begriffspaar von distant und close reading begegnen (Moretti 2000). Die (linguistisch) Forschenden haben die Aufgabe, durch die Wahl der Korpora und eine geschickte Form der Operationalisierung ihrer Forschungsfrage die Suche nach den sie interessierenden Phänomenen zu ermöglichen (distant). Sie haben des Weiteren die Aufgabe, die als Ergebnis ihrer Suchanfrage aus den Korpora extrahierten Daten genau anzusehen (close) und die gesuchten Treffer von den falschen (bzw. nicht einschlägigen) Treffern zu trennen. Als Folge der genaueren Inspektion der Daten kann u.U. das Suchverfahren verbessert und damit die Menge der falsches reduziert werden (iteratives Vorgehen) oder die Annotation der Daten kann verfeinert bzw. deren automatische Analyse unter Berücksichtigung der manuell identifizierten Fehlklassifizierungen mit verbesserten Ergebnissen wiederholt werden. Am Ende der Auswertung der manuell bereinigten Daten kann ein Datensatz stehen, der als Evidenz in einer linguistischen Argumentation verwendet werden kann. Auch die (nachträgliche) statistische Aggregierung der Ergebnisdaten, um Kennzahlen daraus zu ermitteln, ist möglich und sinnvoll, wenn der Ergebnisdatensatz sehr groß ist. Methoden und Verfahren der Datenanalyse im Zusammenhang mit korpuslinguistischen Analysen und die damit verbundenen Schwierigkeiten und Fallstricke werden ausführlich in Lemnitzer & Zinsmeister (2016) beschrieben.

Korpora in der Lexikographie

Moderne Lexikographie ist heute in der Regel korpusbasiert. Die meisten uns bekannten größeren lexikographischen Vorhaben nutzen meist sehr große Textkorpora als Grundlage der lexikographischen Beschreibung ihrer Stichwörter. Anders ausgedrückt: die Benutzer von Wörterbüchern erwarten zu Recht, verlässliche und geprüfte Informationen vorzufinden. In vielen Fällen haben die Benutzer keinen direkten Zugriff auf die Korpora, die der lexikographischen Analyse zugrunde lagen. In diesen Fällen müssen sie der Arbeit der Lexikographinnen und Lexikographen vertrauen können. In anderen Fällen, wie beim DWDS, ist der Zugang zu den Quellen und zu Analyseergebnissen möglich. Der Wörterbucheintrag stellt eine Teilmenge lexikographisch ausgewählter und verlässlicher Daten bereit und kann somit als Einstieg in das detailliertere (aber auch nicht immer einfache) Studium der vielfältigen Primärdaten dienen.

Folgende Fragen und Aspekte der lexikographischen Beschreibung sollten mit Hilfe von Korpora beantwortet werden können:

  • Gibt es neben der etablierten Schreibung des Stichwortes noch andere Schreibungen? Die Frage, ob bestimmte mögliche Schreibungsvarianten, auch wenn sie Korpora gefunden werden können, zulässig sind oder empfohlen werden können, ist ein normative Frage bzw. Angabe, die gerade nicht auf Grund von Korpusevidenz beantwortet werden kann und sollte.
  • Ist der Plural eines Substantivs oder die Steigerungsform eines Adjektivs bildbar und, wenn ja, signalisiert die Anzahl der Belege, dass die entsprechenden Bildungen selten oder ungebräuchlich sind?
  • Gibt es bildliche oder übertragene Verwendungen zu einem Stichwort in einer bestimmten Lesart (in ausreichender Häufigkeit)?
  • Mit welchen anderen Wörtern kommt ein Stichwort typischerweise gemeinsam bzw. innerhalb eines bestimmten ‘Abstands’/Kontextes vor?
  • Mit welchen anderen Adjektiven kontrastiert ein bestimmtes Adjektiv – Antonymierelation als ein Beispiel für paradigmatische Relationen zwischen lexikalischen Einheiten.

Dies ist nur eine kleine Auswahl von Fragen lexikographischer Natur, die am besten mit Hilfe größerer Textkorpora beantwortet werden können. Eine umfassendere Übersicht mit vielen Beispielen findet sich in Geyken und Lemnitzer 2016.

Nicht für alle Fragen spielt die linguistische Annotation eine Rolle. Viele Fragen, vor allem solche auf die Wortform bezogenen, lassen sich durch eine Suche in den Primärdaten beantworten. Je näher die Beschreibung aber den semantischen Eigenschaften des zu beschreibenden Lexems kommt, umso hilfreicher wird die Annotation der Wortarten im Korpus. Hierfür zwei Beispiele, in denen mit Mustern gearbeitet wird. Die Muster bestehen aus einer Folge von konkreten Wörtern und abstrakten Wortarten:

  1. Muster für einen definitorischen Kontext: „unter“ ($ART) $NN „versteht man“ (Vgl. Korpustreffer für diese Abfrage im DWDS [3])
  2. Muster für Antonymierelation: „weder“ $ADJ „noch“ $ADJ (Vgl. Korpustreffer für diese Abfrage im DWDS [4])

Auch für diese beiden Beispiele gilt, dass a) nicht alle Vorkommen (von Definitionen oder semantischen Relationen) auf diese Art gefunden werden können und b) nicht alle Treffer als Belege für die genannten Konstruktionen geeignet sind. Dennoch sind dies wichtige heuristische Hilfen für die Suche in großen Korpora.

Zwei grundlegende Einsichten zum Verhältnis von Korpora und lexikographischer Beschreibung seien hier zusammenfassend genannt:

  1. Die Intuition jeder auch noch so erfahrenen Lexikographin ist begrenzter als das, was in hinreichend großen Korpora über die tatsächlichen Gegebenheiten der Sprachverwendung hinaus dokumentiert ist. Die Beschränkungen sprachlicher Intuition treten vor allem da zu Tage, wo es um seltene Phänomene geht und um Phänomene und Strukturen, die nur durch quantitative Datenaggregation sichtbar werden (z.B. typische Wortverbindungen wie Kollokationen) – Geyken 2011 konfrontiert Ergebnisse einer soliden und sorgsamen lexikographischen Beschreibung (am Beispiel des Stichworts grau) im Wörterbuch der deutschen Gegenwartssprache sowie im Duden Großwörterbuch der deutschen Sprache mit einer korpusbasierten aggregativen Korpusanalyse (Wortprofil im DWDS) und zeigt eindrücklich, wo die Beschränkungen einer nicht-korpusbasierten lexikographischen Beschreibung liegen.
  2. Die Datenbasis jeder lexikographischen Beschreibung ist im Verhältnis zum Gegenstand der lexikographischen Beschreibung unvollständig. Jedes noch so große Korpus stellt nur einen Ausschnitt aus dem Reichtum des Sprachgebrauchs dar. Darüber hinaus ist auch das Verhältnis des als Stichprobe anzusehenden Korpus zur Grundgesamtheit (des Sprachgebrauchs in einem bestimmten Zeitraum) unklar, so dass Schlüsse vom Korpus auf den tatsächlichen Sprachgebrauch mit Vorsicht zu ziehen sind. Die meisten Einsichten und Schlüsse sind plausibel, aber besonders im Bereich der seltenen oder eigentümlichen Erscheinungen sind die Grenzen dessen erreicht, was man mit Hilfe von Korpora zu zeigen in der Lage ist, vgl. Zu den Möglichkeiten den Blogbeitrag von Alexander Geyken und Norbert Schrader zum Stichwort entsorgen und den darauf bezogenen sprachkritischen Diskurs.

Wenn man in der Lage ist, mit großen, annotierten Korpora und darauf aufbauenden linguistischen Recherchewerkzeugen, angereichert durch statistische Auswertungen, zu arbeiten, wie dies mit dem Digitalen Wörterbuch der deutschen Sprache der Fall ist, dann lassen sich auch die resultierenden lexikographischen Beschreibung auf eine solide empirische Basis stellen. Der Arbeitsprozess wird beschleunigt, was angesichts der Menge zu beschreibender Stichwörter nicht unerheblich ist, und die resultierenden Beschreibungen werden verlässlicher, sind näher am tatsächlichen Sprachgebrauch.

Literatur

Geyken, Alexander: Statistische Wortprofile zur schnellen Analyse der Syntagmatik in Textkorpora. In: Andrea Abel und Renata Zanin (Hrsg.): Korpora in Lehre und Forschung. Bozen:Verlag der Unversität von Bolzano, 2011, S. 115‒137.

Geyken, Alexander und Lemnitzer, Lothar: Automatische Gewinnung von lexikographischen Angaben. In: Annette Klosa und Carolin Müller-Spitzer (Hrsg.): Internetlexikographie. Ein Kompendium. Berlin und Boston: de Gruyter 2016, S. 197‒247.

Lemnitzer, Lothar und Zinsmeister, Heike: Korpuslinguistik. Eine Einführung. 3. Auflage. Tübingen: Narr 2015.

Franco Moretti: Conjectures in World Literature. In: The New Left Review, 1, 2000 (https://newleftreview.org/II/1/franco-moretti-conjectures-on-world-literature, besucht am 17. Oktober 2017).

Schiller, Anne, Teufel, Simone, Stöckert, Christine und Thielen, Christine (1999). Guidelines für das Tagging deutscher Textcorpora mit STTS. Technischer Bericht, Universitäten Stuttgart und Tübingen. (Guidelines: http://www.sfs.uni-tuebingen.de/resources/stts-1999.pdf, besucht am 17. Oktober 2017).

Schmid, Helmut: Tree Tagger (http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/, besucht am 17. Oktober 2017).

WebLicht: Arbeitsumgebung für die automatische Annnotierung von Webkorpora (https://weblicht.sfs.uni-tuebingen.de/, besucht am 17. Oktober 2017).

Wothke, Klaus/Weck-Ulm, Ilona/Heinecke, Johannes/Mertineit, Oliver/Pachunke, Thomas (1993): Statistically Based Automatic Tagging of German Text Corpora with Parts-of-Speech ‒ Some Experiments. Heidelberg, 1993 (= IBM Scientific Center Technical Report #75.93.02).

Liste der Links

  1. Korpustreffer für ""$p=ART with $.=0 $p=ADJA $p=NN $p=VVFIN $p=NE \."", aus dem Kernkorpus des Digitalen Wörterbuchs der deutschen Sprache, >https://www.dwds.de/r?q=%22%24p%3DART+with+%24.%3D0+%24p%3DADJA+%24p%3DNN+%24p%3DVVFIN+%24p%3DNE+%5C.%22&corpus=kern&date-start=1900&date-end=1999&genre=Belletristik&format=full&sort=date_desc&limit=50<, abgerufen am 26.10.2017.
  2. Korpustreffer für ""Das with $p=PDS ist with $p=VAFIN wohl with $p=ADV wahr with $p=ADJD \."", aus dem aggregierten Referenz- und Zeitungskorpus des Digitalen Wörterbuchs der deutschen Sprache, <https://www.dwds.de/r?q=%22Das+with+%24p%3DPDS+ist+with+%24p%3DVAFIN+wohl+with+%24p%3DADV+wahr+with+%24p%3DADJD+%5C.%22&corpus=public&date-start=1473&date-end=2016&genre=Belletristik&genre=Wissenschaft&genre=Gebrauchsliteratur&genre=Zeitung&format=full&sort=date_asc&limit=100>, abgerufen am 23.10.2017.
  3. Korpustreffer für ""unter $p=ART $p=NN versteht man"", aus dem aggregierten Referenz- und Zeitungskorpus des Digitalen Wörterbuchs der deutschen Sprache, <https://www.dwds.de/r?corpus=public;q=%22unter%20%24p%3DART%20%24p%3DNN%20versteht%20man%22>, abgerufen am 23.10.2017.
  4. Korpustreffer für ""weder $p=ADJ* noch $p=ADJ*"", aus dem aggregierten Referenz- und Zeitungskorpus des Digitalen Wörterbuchs der deutschen Sprache, <https://www.dwds.de/r?corpus=public;q=%22weder%20%24p%3DADJ*%20noch%20%24p%3DADJ*%22>, abgerufen am 23.10.2017.

Geschrieben von : Lothar Lemnitzer

1000 Buchstaben übrig