Das Referenzkorpus Mittelniederdeutsch/Niederrheinisch (1200–1650)

Fabian Barteld, Katharina Dreessen, Sarah Ihden, Ingrid Schröder

Seit Beginn des Jahres 2013 wird das „Referenzkorpus Mittelniederdeutsch/Niederrheinisch (1200–1650)“ (ReN) erstellt, welches Teil des „Korpus historischer Texte des Deutschen“ ist. Hierzu zählen außerdem die Referenzkorpora „Altdeutsch“, „Mittelhochdeutsch“ und „Frühneuhochdeutsch“.
Das Referenzkorpus umfasst mittelniederdeutsche und niederrheinische Handschriften, Drucke und Inschriften von 1200 bis 1650 in einer strukturierten Auswahl, die sich aus den Parametern Raum, Zeit und Feld der Schriftlichkeit ergibt. Das Ziel des DFG-Projektes besteht in der Veröffentlichung transkribierter, lemmatisierter und grammatisch annotierter Texte. Die so bearbeiteten Daten ermöglichen – insbesondere auf grammatischer Ebene – sprachwissenschaftliche Analysen des Mittelniederdeutschen und Niederrheinischen, die weit über das bisher Mögliche hinausgehen.
Die Texte des Referenzkorpus‘ werden diplomatisch transkribiert. Abbreviaturen werden kenntlich gemacht, der Zeilen-, Spalten-, Seiten- und Blattanfang wird jeweils markiert und Interpunktionszeichen sowie die Groß- und Kleinschreibung orientieren sich jeweils an der vorliegenden Handschrift bzw. dem vorliegenden Druck. Im Rahmen der Transkription werden außerdem Wort- und Satzgrenzen bestimmt. Die grammatische Annotation im Projekt besteht aus der Annotation von PoS (Wortarten) und Flexionsmorphologie. Beides erfolgt halbautomatisch, d. h. dass die Ergebnisse eines automatischen Taggers manuell korrigiert werden. Das der Annotation zugrundegelegte „Historische Niederdeutsch-Tagset“ (HiNTS) orientiert sich zum Zwecke paralleler Suchabfragen in den anderen Referenzkorpora an dem „Tagset für historische Sprachstufen des Deutschen“ (HiTS), das wiederum auf dem STTS (Stuttgart-Tübingen-Tagset) basiert. Neben der grammatischen Annotation erfolgt außerdem eine computergestützte Lemmatisierung mithilfe eines vereinheitlichten und digitalisierten Lemmainventars auf Basis verschiedener mittelniederdeutscher Wörterbücher.