CLARIN-D Blog

Diskursanalytische Fragestellungen mithilfe des DeReKo (Teil 2)

https://youtu.be/56kF3-03_fY

Im ersten Teil dieses Screencasts erklärte Simon Meier, Mitglied der CLARIN F1, wie für diskursanalytische Fragestellungen das Deutsche Referenzkorpus (DeReKo) in COSMAS II mit der integrierten Funktion der Themenannotation genutzt werden kann. hier geht es zum Blogpost der Teil 1 des Videos behandelt. 

Dieser Blogpost beschäftigt sich nun mit Teil 2 von Meier's Screencast, in dem er zeigt, wie die in Teil 1 gefundenen Belege exportiert und mithilfe des kostenlosen Korpusanalysewerkzeugs AntConc weiter untersucht werden können. 

Im letzten Screencast zeigte Meier bereits, dass Formulierungen wie heute weiß man in populärwissenschaftlichen Texten sowie Texten über Ernährung und Gesundheit besonders häufig vorkommen. Die Frage ist nun, welche Gegenstände typischerweise, und mit welchen sprachlichen Mitteln, so repräsentiert werden. Um die Frage zu beantworten werden die Belege zusammen mit Referenzbelegen in AntConc analysiert.  

Vorgehensweise

Da im ersten Screencast nur nach einer bestimmten Formulierung, nämlich heute weiß man, gesucht wurde, wird dieser Schritt wiederholt um mit Einsatz des logischen Operators OR alle möglichen Äquivalente und Alternativen zu finden. Die Belege zu den Themen Populärwissenschaft und Ernährung und Gesundheit, insgesamt 594, werden nun als KWIC heruntergeladen. In einem ersten Schritt lässt sich nun in AntConc eine Wortliste erstellen, mittels derer die häufigsten Wörter in absteigender Reihenfolge angezeigt werden können. Da das Ziel jedoch eine vergleichende Untersuchung ist, wird noch ein thematisch unspezifisches Referenzkorpus gebraucht, um berechnen zu können, welche Wörter in den gefundenen Belegsätzen signifikant häufiger sind als in einem Referenzkorpus. Ein solches kann auf der Seite Wortschatz Leipzig heruntergeladen werden. Meier läd ein Deutsches Korpus aus dem Jahr 2015 mit 100.000 Wörtern und rund 2.000.000 Wörtern herunter. 

Ergebnis

Wieder in AntConc können nun die Keywords berechnet werden. Nach dem Hochladen des Referenzkorpus kann durch klicken auf

Read more

Diskursanalytische Fragestellungen mithilfe des DeReKo (Teil 1)

https://youtu.be/OOTUB-qC5as

Im ersten Teil dieses Screencasts erklärt Simon Meier, Mitglied der CLARIN F1, wie für diskursanalytische Fragestellungen das Deutsche Referenzkorpus (DeReKo) in COSMAS II mit der integrierten Funktion der Themenannotation genutzt werden kann. Hier geht es zu Teil 2. 

Als Beispiel wählt Meier populärwissenschaftlichen Diskurs in denen Formulierungen wie 

  • heute weiß man
    oder
  • wir wissen heute

genutzt werden. 

Die These lautet: 

Im populärwissenschaftlichen Diskurs als medial vermittelter Experten-Laien-Kommunikation sind wir wissen heute, heute weiß man usw. formelhafte Mittel zur Präsentation von Wissen und Wissensfortschritt.  

Die dazugehörige Forschungsfrage:

Sind die Formulierungen tatsächlich typisch für populärwissenschaftliche Diskurse?

Seine Vorgehensweise: 

Um seine Forschungsfrage zu beantworten und die These zu bestätigen bedient sich Meier am DeReKo, auf das mithilfe der Webanwendung COSMAS II zugegriffen werden kann. Hierfür wählt er nach einem login in COSMAS II das Archiv w2, welches Pressetexte aus (Lokal-)Zeitungen enthält aus und wählt daraus alle öffentlichen Korpora aus.

Nun kann nach die Suche starten. Er gibt den Suchbegriff, beziehungsweise den Suchbegriff wir wissen heute in die Suchmaske ein und wählt Wortabstand /^w1, sodass ausschließlich und exakt diese Anfrage gesucht wird. Lässt man sich nun alle Suchergebnisse anzeigen, kommen 763 Treffer zusammen, welche zunächst nach Quellen und alphabetisch sortiert sind. Da Meier interessiert, ob der Suchbegriff in populärwissenschaftlichen Diskursen besonders häufig vorkommt, wählt er die Sortierung nach Themen in absteigender Reihenfolge der Häufigkeit der Treffer in diesen aus. Dieser Schritt ist möglich, da jeder Text, der in das DeReKo eingespeist wird, eine automatisierte Themenannotation durchläuft, die auf Grundlage von Wortverteilungen abschätzt, welchem Thema ein Text vermutlich entstammt.

Die Ergebnisse:

Geht man nun ans Ende der Liste ist zu sehen, dass Texte aus Wissenschaft, mit Unterthema Populärwissenschaft, die zweitmeisten Treffer haben. Die

Read more

Sprach-Analysen der Wikipedia-Korpora im DeReKo mithilfe von COSMAS II

https://youtu.be/bKw1yaf_imk

In diesem Screencast zeigt Dr. Eva Gredel von der Universität Mannheim, wie die Wikipedia-Korpora im Deutschen Referenzkorpus (DeReKo) mithilfe von COSMAS II für Sprachanalysen genutzt werden können. 

Ganz konkret geht es um eine von ihr durchgeführte Fallstudie zu itis-Kombinationen als Wortbildungsprodukte auf den Diskussionsseiten der Wikipedia.

Das Phänomen
Das Morphem itis, das in medizinischer Fachsprache für Wortbildungsprodukte zum Einsatz kommt, hat als Basiskonstituente üblicherweise Bezeichnungen für Körperteile oder Organe. Seit dem 19. und 20. Jahrhundert kamen dann weitere, gemeinssprachliche itis-Kombinationen wie Telefonitis hinzu. Auch in der Wikipedia, dass sich im 21. Jahrhundert entwickelte, tauchen in bestimmten Kontexten gemeinsprachliche itis-Kombinationen auf. 

Als Beispiele führt Dr. Gredel folgende itis-Kombinationen auf: 

-itisMFS (seit der Antike)   Rach-itis           (Nortmeyer 1987)

-itisBS (19.Jhdt.)                Dichter-itis        (Hoppe 2010)

-itisWikipedia (21.Jhdt.)    Abkürzer-itis     (Gredel 2018)
                                    Newsticker-itis
                                    Zitier-itis

Die Fragestellung

  • Welche Wikipedia-spezifischen Kombinationen lassen sich auf den Diskussionsseiten der Wikipedia finden?

  • Welche Vorkommenshäufigkeit weisen diese Kombinationen auf? 
  • Welche Funktionen erfüllen diese Bildungen auf den Wikipedia Diskussionsseiten?

Die Vorgehensweise

Nach einem Login bei COSMAS II kann die Datenerhebung starten. Innerhalb der COSMAS II Archive gibt es die Wikipedia-Korpora, welche ein eigenes Archiv bilden. Nach der Auswahl des Wikipedia-Archivs können weitere Teilkorpora ausgewählt werden. Da die gesuchten itis-Kombinationen vor allem auf den Wikipedia Diskussionsseiten zu finden sind, wurde

Read more

CLARIN-D Newsflash Juli 2018

 

Titelseite der ersten Ausgabe der Philosophical Transactions
Titelseite der ersten Ausgabe der Philosophical Transactions

Neue Ressourcen in CLARIN-D

Neue Medien

Sommerschulen und Workshops

Veröffentlichungen

  • Im Sammelband "Computational Social Science—Die Analyse von Big Data" (herausgegeben von Prof. Dr. Andreas Blätte, Prof. Dr. Joachim Behnke, Prof. Dr. Kai-Uwe Schnapp, Prof. Dr. Claudius Wagemann) ist ein Methodenartikel erschienen, in dem die Analyse komplexer sozialwissenschaftlicher Konzepte mit korpusanalytischen Methoden reflektiert wird.

Bildnachweis: Titelseite der ersten Ausgabe der Philosophical Transactions, Foto von Richard Valencia, Quelle: https://commons.wikimedia.org/wiki/File:Philosophical_Transactions_Volume_1_frontispiece.jpg, Lizenz CC-BY-4.0

 

Read more

Konstruktionsgrammatik - Sprachgebrauchsbasierte Analysen mit den Korpora des DWDS und des DTA

https://youtu.be/wgmzrT9UJxQ

Prof. Dr. Alexander Lasch, Linguist an der TU Dresden, zeigt in diesem Video, wie mit den Ressourcen des DTA und des DWDS sprachgebrauchsbasierte Analysen durchgeführt werden können, um das Deutsche konstruktionsgrammatisch zu beschreiben. Dafür stellt er zwei Leitfragen auf: 

  1. Kann mittels eines konstruktionsgrammatischen Ansatzes Sprachgebrauch gegenstandsadäquat beschrieben werden?
  2. Inwieweit können maschinelle Analysen des Sprachgebrauchs dazu dienen, den sprachgebrauchsbasierten konstruktionsgrammatischen Ansatz zu plausibilisieren?  

Ein sprachgebrauchsbasierter Zugang verlangt die Diskussion darüber, was für uns ein Muster, Pattern, Schema oder eine Konstruktion sei, wovon sowohl die Grammatik des Deutschen, als auch die Konstruktionsgrammatik als Teilgebiet unter spezifischen kognitionslinguistischen Prämissen profitieren können. Der aktuelle Trend ist die Ermittlung solcher Muster durch maschinelle Analysen. Diese Muster werden dann im nächsten Schritt abstrahiert, um aus ihnen Konstruktionen zu gewinnen. Durch diese Vorgehensweise soll Sprachwissen, welches Sprechende zur Produktion der sprachlichen Strukturen verwenden, aus Sprachgebrauch rekonstruiert werden. Für diese Arbeit bieten das DWDS und das DTA gute Mittel.

Die jeweiligen Korpusdaten müssen hierfür sehr genau durchsucht werden, und es sollte bereits im Vorfeld klar sein, nach welchen sprachlichen Strukturen gesucht wird und wie diese beschrieben werden sollen, um die Suchstrings entsprechend anzupassen. Als Beispiel dafür, dass dieser Schritt unumgänglich ist, gibt Lasch die drei folgenden Suchstrings an, die allesamt das Partizip Perfekt im Mittelpunkt ihrer Suchanfrage haben, doch zu Ergebnissen mit kleinen Unterschieden führen: 

  1. near(erscheinen, $p=VVPP,10)
  2. "@erscheint #10 $p=VVPP"&&!\,&&!@zu
  3. "$p=VVPP #0 @erscheint" &&!@zu

Eine erste Annäherung an das zu untersuchende Phänomen lässt sich mit einem Suchstring wie unter (a) vornehmen. Abgesucht wird hier der Bereich nach dem Auftreten des Wortes erscheinen als Verb und einem Partizip Perfekt in einem Bereich von 10 Einheiten. Nicht berücksichtigt werden hierbei Spezifika wie Satzzeichen, und ob das Partizip Perfekt und das gesucht Wort

Read more

(fast alles) was Sie schon immer über deutsche Grammatik wissen wollten und einfach nachschlagen können …

(fast alles) was Sie schon immer über deutsche Grammatik wissen wollten und einfach nachschlagen können …

 

Seit fast 20 Jahren betreibt das Institut für Deutsche Sprache (IDS) das grammatische Informationssystem grammis (https://grammis.ids-mannheim.de). Grammis vermittelt den hochkomplexen Gegenstandsbereich Grammatik unter Ausnutzung digitaler Sprachressourcen und hypertextueller Navigationsstrukturen gleichermaßen wissenschaftlich fundiert und anschaulich. Forschungsergebnisse werden nicht in Form singulärer Einzelpublikationen transportiert, sondern es wird das gesamte Potenzial multimedialer Medien genutzt. Grammis hebt dadurch Beschränkungen der bisherigen Realisierungsformen von Open Access auf und adressiert variable – insbesondere mobile – Nutzungssituationen. Grammis versammelt multimedial aufbereitetes grammatisches Wissen auf über 3000 Webseiten, ergänzt um linguistisch motivierte Datenbanken, Wörterbücher und Bibliografien. Mit mehr als 100.000 Seitenaufrufen pro Monat zählt es zu den meistgenutzten Online-Ressourcen des IDS.

Terminologische Ressourcen

Ein wichtiger Bestandteil von grammis ist das Modul Wissenschaftliche Terminologie. Dieses ist das Ergebnis einer umfassenden methodisch-infrastrukturellen Überarbeitung bereits vorhandener Terminologie-Ressourcen am IDS und befindet sich gegenwärtig in einem inhaltlichen Überarbeitungsprozess. Das Modul Wissenschaftliche Terminologie ist nicht zuletzt deshalb von großer Wichtigkeit für das Gesamtsystem, da Nutzerinnen und Nutzer nahezu unweigerlich mit diesem in Berührung kommen.

Wörterbuchtexte

Den offensichtlichsten Berührungspunkt stellen hierbei wörterbucheintragsähnliche Kurztexte dar, in denen Fachbegriffe deutscher Grammatik erläutert werden. Zurzeit umfasst die Wissenschaftliche Terminologie 420 Lemmata und die dazugehörigen Erklärungstexte. Der Zugang erfolgt entweder direkt per Verlinkung aus anderen Texten in grammis oder über eine klassische alphabetische Liste, wie sie auch in einem Printwörterbuch zur linguistischen Terminologie zu finden ist.

Die an der grammis-Benutzeroberfläche sichtbaren Kurztexte sind jedoch nur ein Teil eines größeren, weitaus komplexeren Systems.

Begriffssystem

Unter der Benutzeroberfläche sind die terminologischen Ressourcen von grammis als Begriffssystem modelliert. Begriffe, verstanden als abstrahierte Denkeinheiten, werden in diesem System durch Relationen miteinander verbunden. Bei den Relationen handelt es sich um hierarchische Abstraktionsbeziehungen (Hyperonymie/ Hyponomie), hierarchische Teil-Ganzes-Beziehungen (Holonymie/ Meronymie) sowie

Read more

Vom Korpus zum Netz - Prof. Dr. Christian Mair - Forum CA3

https://youtu.be/uJ9JWEn7LSA

Prof. Dr. Christian Mair von der Universität Freiburg geht in seiner Präsentation auf dem Forum CA3 in Hamburg auf die Entwicklungen bezüglich des Community Buildings innerhalb von Forschungsinfrastrukturen wie CLARIN-D ein. In den letzten 50 Jahren gab es bezüglich des Nutzerkreises digitaler Sprachdaten große Veränderungen. Wo früher noch ausschließlich kleine Expertenzirkel ihr Wissen unter sich verbreiteten, wird dies nun mehr und mehr zur massenhaft verbreiteten Kulturtechnik. Die Community, die sich um einen Wissenskreis bildet, ist also nicht mehr so eindeutig abgrenzbar wie früher. Dies liegt in erste Linie an der breiten Digitalisierung der linguistischen Daten wie Schrifttexten, die nun multimodal und multimedial gestaltet werden und somit ein größeres Publikum bedienen können. Des Weiteren werden Texte nicht mehr nur noch gelesen, sondern in Datenform nutztbar gemacht und genutzt. 

Wo noch vor 40 Jahren eine Community um eine Forschungsinfrastruktur herum entstand und ein Mangel an Korpora und Daten herrschte, bilden sich heute durch fortschrittliche Entwicklungen bezüglich Hardware, Software, Korpusgrößen, Menge, Qualität und Diversität digitaler Sprachdaten eher Forschungsinfrastrukturen um eine bestehende Community herum; beziehungweise muss die Forschungsinfrastruktur speziell auf Ansprüche und Anforderungen der Community eingehen, um diese zu halten und vergrößern. Leider gibt es jedoch dadurch nun auch Überfluss an Angebot, dadurch entstehende Unübersichtlichkeit und immer weniger eng vernetzte wissenschaftliche Communitites bilden Probleme die von einer Forschungsinfrastruktur wie CLARIN-D gelöst werden sollen. CLARIN-D sollte es sich laut Mair also zum Vorsatz nehmen, sich zwischen Riesen wie Google, OED Online oder Literature Online zu positionieren, um von dort aus sinnvolles Community Building, angepasst auf die heutigen Standards und Veränderungen der vergangenen Jahre zu starten. 

 

Read more

Analyse von 'sprich' unter Verwendung der DGD und FOLK

https://youtu.be/eBqfSt90ti0

In diesem Screencast wird anhand der Datenbank für Gesprochenes Deutsch (DGD) gezeigt, wie Gesprächslinguistische Phänomene datenbankgestützt aufgezeigt und analysiert werden können. Hierfür wird das Forschungs- und Lehrkorpus gesprochenes Deutsch (FOLK) genutzt. Das untersuchte Wort ist sprich in seiner Verwendungsweise als Reformulierungsindikator, in dem es eine ähnliche Funktion wie das heißt hat und von seiner ursprünglichen imperativen Form entfremdet ist.  

Bei welchen Fragestellungen ist eine solche datenbankgestützte Analyse hilfreich? 

  • Finden sich Kookkurrenzen mit anderen Reformulierungsindikatoren wie also oder das heißt?
  • In welchen Interaktionstypen findet sich sprich häufiger und lassen entsprechende Tendenzen weitere Schlussfolgerungen bezüglich der Funktionalität zu? 
  • Welche grammatischen, semantischen und funktionalen Elemente werden durch sprich miteinander verknüpft und in welchem Verhältnis stehen diese? 

Wie sieht die Vorgehensweise aus, um diesen Fragestellungen nachzugehen?

Über den Reiter Recherche - Tokens auf der Seite der DGD gelangt man in die Zielsuchmaske. Hier ist FOLK bereits als Standardeinstellung ausgewählt, es lassen sich aber auch andere Korpora auswählen. In das Suchfeld Normalisiert wird der Begriff sprich eingegeben, um ausschließlich diese Wortform zu finden. Es gibt auch die Möglichkeit nach dem Lemma sprechen oder einer Transkriptversion des Wortes sprich zu Suchen, was für die vorliegende Fragestellung jedoch zu viele, beziehungweise zu wenige Ergebnisse liefern würde. Die Ergebnisse werden nun als KeyWord In Context, kurz KWIC, angezeigt. Zu Beginn finden wir 58 Treffer, von denen jedoch noch False Positives wie sprich in seiner Imperativform abgewählt werden müssen. Um zu sehen, bei welchen Treffern es sich möglicherweise um False Positives handelt, können die Formen angehört, beziehungsweise die Transkriptionen angesehen werden. Sind alle False Positives abgewählt, bleiben 45 Treffer von sprich in der gesuchten Form als Diskursmarker.

Um zu sehen ob/wie oft sprich

Read more

WebLicht Experteninterview - Extraktion Prädikativer Nominalphrasen

https://youtu.be/z6Y6m_oj-XU

In diesem Experteninterview wird ein Anwendungsszenario von CLARINs WebLicht besprochen. Genau wird gezeigt, wie prädikativ verwendete Nominalphrasen mittels WebLicht aus literarischen Texten extrahiert werden können. Der Forschungskontext innerhalb dessen diese Arbeitsweise genutzt wurde waren Formen und Funktionen von NPs beim Entwurf literarischer Figuren

Bei prädikativ verwendeten NPs im literarischen Kontext handelt es sich zum Beispiel um Charakterisierungen, wie die im folgenden Textausschnitt aus Thomas Manns Mario und der Zauberberg fett markierte Stelle: 

Ohne Schwierigkeiten fand sich ein junger Mann aus den hinteren Sitzreihen, der bereit war, diktierte Ziffern auf die Tafel zu schreiben. Wir kannten ihn auch: die ganze Unterhaltung gewann etwas Familiärs dadurch, dass man so viele Gesichter kannte. Er war der Angestellte des Kolonialwaren- und Obstladens in der Hauptstraße und hatte uns mehrmals in guter Form bedient. 
Mann 1930: 61
 

Es handelt sich also um NPs die gemeinsam mit einer Form von sein auftreten und der Charakterisierung einer Figur dienen

Um diese NPs zu extrahieren beziehungsweise zu visualisieren, kann WebLicht verwendet werden. Hierfür muss der zu untersuchende Text innerhalb von Weblicht unter Input Selection eingefügt werden, der Dokumenttyp auf Plain text und die Sprache auf Deutsch gestellt werden. Im nächsten Schritt wird der Advanced Mode ausgewählt und dann die Prozesskette zusammengestellt. In diesem Fall sah diese folgendermaßen aus: 

SFS: to TCF Converter - IMS: Tokenizer - IMS: TreeTagger - IMS: Constituent Parser

Nach einem Klick auf Run Tools lässt sich die Baumstruktur des Parsers auswählen und grafisch darstellen. Hier sieht man nun wo die gesuchten prädikativ verwendeten Nominalphrasen vorkommen, im Beispiel der Angestellte des Kolonialwaren- und Obstladens in der Hauptstraße.

Die Vorgehensweise in Kürze: 

Text einfügen - Dokumenttyp festlegen - Sprache auswählen - Advanced Mode

Read more

COSMAS II Screencast

https://youtu.be/0pY2cSgd4kQ

In diesem Screencast wird eine Nutzungsmöglichkeit von COSMAS II gezeigt. COSMAS, das Corpus Search, Management and Analysis System, ist ein Portal für Korpusrecherchen innerhalb textueller Korpora des IDS. Als Beispiel wird die Untersuchung der Entwicklung des öffentlichen Diskurses über Geflüchtete gezeigt

Es wird im Detail gezeigt, welche Schritte für eine solche Analyse in COSMAS II vorgenommen werden müssen. So muss zunächst ein für den Forschungskontext geeignetes Teilkorpus zusammengestellt werden. Hierfür muss nach einer Anmeldung in COSMAS II ein Textarchiv ausgewählt werden. Im Screencast wird beispielsweise das Archiv für geschriebene Sprache ausgewählt. Als Textkorpus werden Texte aus der Zeitung Die Zeit zwischen 1953 und 2015 ausgewählt.

Im nächsten Schritt werden Teilkorpora der ersten und letzten zehn Jahre aus diese Zeitspanne erstellt. Dies geschieht über den Reiter Korpusverwaltung - geladene Korpora - Neu. In der nun auftauchenden Suchmaske können die Texte gesucht, gefunden, ausgewählt und über markierte Dokumente aktivieren zu unserem eigenen kleinen Korpus zusammengestellt werden. Zuletzt sollte nun noch der Name festgelegt, das Korpus gespeichert, und abschließend aktiviert werden.

Nun kann einfach nach dem zu untersuchenden Wort, in diesem Fall Flüchtling, gesucht werden. Damit nicht nur genau diese Wortform, sondern auch andere Flektionen angezeigt werden, kann der Operator & verwendet werden. Es wird also &Flüchtling eingegeben. Über die Reiter Suchen - Ergebnisse - Kook. (für Kookurenzanalyse) lässt sich nun das Wort in seinen verschiedenen Kontexten darstellen. Die Analyse nimmt einige Sekunden in Anspruch. Nun kann die wirkliche Analyse beginnen. So fällt beispielsweise auf, dass im früheren Teilkorpus, von 1953-1963, das Wort Flüchtling in Umgebungen wie Sowjetzone oder Westberlin stand, wohingegen die textuelle Nachbarschaft im neueren Teilkorpus eher Wörter wie Lampedusa oder Syrien bilden. So können

Read more