Auffinden

Auffinden

Auswerten

Auswerten

Aufbereiten und Aufbewahren

Aufbereiten

 

Mehr

Mehr

Hilfe

CLARIN hilft

Mehr erfahren

CLARIN-D Blog

CLARIN Federated Content Search: Suche in verteilten Sprachressourcen

In diesem Screencast stellen wir unser Werkzeug CLARIN Federated Content Search (FCS) vor. Es ermöglicht eine Suche nach unterschiedlichen Verwendungen eines Wortes in verteilten Sprachressourcen. Hierfür kann ein beliebiger Begriff in die Suchmaske eingegeben werden um ihn entweder Sprachunabhängig oder in einer bestimmten Sprache darzustellen. Auch die Art der Darstellung lässt sich manuell festlegen.  

Eine dieser Darstellungsformen, die auch in diesem Screencast gezeigt wird, ist KWIC - also Keyword in Context. Hierbei wird das Wort in verschiedenen möglichen Kontexten dargestellt. 

Weiterlesen

Wo sagt man ... ?

Besonders interessant für Dialektforscher und Regionalhistoriker ist das in diesem Screencast vorgestellte Werkzeug "Wo sagt man?". Es ermöglicht Nutzenden nach Ausdrücken zu suchen und visualisiert die Bereiche auf einer Karte, in denen dieser Ausdruck verwendet wird, beziehungsweise wo er aufgenommen wurde und liefert weitere Informationen dazu. 

Weiterlesen

Automatische Annotation von Namen

Bücher, Artikel und Manuskripte enthalten oft Angaben zu Personen, Orten und Organisationen. Um sich einen Überblick über diese Angaben zu verschaffen ist ein automatisches Werkzeug wie ein Named-Entity-Recognizer sinnvoll, mit dessen Hilfe Namen markiert und kategorisiert werden können. Gerade bei längeren Texten erhält man dadurch einen guten Überblick, häufig sieht man sogar Namen, Orte und Einrichtungen, die man beim Lesen übersehen hätte.

Mit Hilfe des Tools WebLicht, welches einen Named Entity Recognizer für mehrere Sprachen enthält, können diese Informationen automatisch markiert und extrahiert werden. Sie müssen sich lediglich mit Ihrem CLARIN-Account oder dem Zugang Ihrer Heimatinstitution einloggen und können dann Ihren Text eingeben, hochladen oder einen Beispieltext auswählen. Der nächste Schritt ist die Zusammenstellung Ihrer Prozesskette. Um dies tun zu können klicken Sie im nächsten Schritt auf "Advanced Mode".   

Weiterlesen

DiaCollo Screencast

Dieser Screencast zeigt die Verwendung des Werkzeugs "DiaCollo: Kollokationsanalyse in diachroner Perspektive". 

Der Kontext eines Wortes, in diesem Fall seine Kollokationen, kann Aufschluss über Bedeutung des Wortes oder Bedeutungswandel geben. Ebenso können politische, kulturelle oder gesellschaftliche Veränderungen mittels der Kollokationen eines Wortes aufgefunden werden. 

Weiterlesen

CLARIN-D Helpdesk

Bei jeglichen Fragen zu unserer Forschungsinfrastruktur steht Ihnen das CLARIN-D Zentrum Hamburger Zentrum für Sprachkorpora (HZSK) mittels des Helpdesks zur Verfügung.

Der Helpdesk bietet so eine Schnittstelle zwischen CLARIN und Ihnen als User indem er Ihre Frage in einem zentralen Fragenpool aufnimmt und sie dann mittels eines Ticketing Systems an das entsprechende Expertenteam weiterleitet. Die Mitarbeitenden des Helpdesks haben es sich zum Ziel gesetzt Ihre Frage nach spätestens nach 48 Stunden weiter zu delegieren um Ihnen schnellstmöglich behilflich sein zu können. 

Weiterlesen

Bericht von der ESU 2017  Workshop: From Print and Manuscript to Electronic Version

Das CLARIN-Zentrum an der Berlin-Brandenburgische Akademie der Wissenschaften ist bereits seit einigen Jahren ein aktiver Teil der Community rund um die European Summer University in Digital Humanities „Culture and Technology“ (ESU) in Leipzig. Auch in diesem Jahr waren wir mit einem Kurs zur Digitalisierung und Annotation historischer Drucke und Manuskripte wieder vor Ort und haben am regen interdisziplinären Wissensaustausch zwischen allen Beteiligten teilgenommen. 

Weiterlesen

Wortartentagging für die lexikographische Recherche

Wortartentagging für die lexikographische Recherche

Moderne Lexikographie ist heute in der Regel korpusbasiert. Die meisten uns bekannten größeren lexikographischen Vorhaben nutzen meist sehr große Textkorpora als Grundlage der lexikographischen Beschreibung ihrer Stichwörter. Anders ausgedrückt: die Benutzer von Wörterbüchern erwarten zu Recht, verlässliche und geprüfte Informationen vorzufinden. Eine Vorverarbeitung der Korpora - das Wortartentagging - ist in diesem Prozess unbedingt erforderlich.

Weiterlesen

Digital Humanities studieren und netzwerken mit CLARIN

Digital Humanities studieren und netzwerken mit CLARIN

Man nehme 70 internationale Nachwuchswissenschaftler aus den Digital Humanities (DH), 11 verschiedene Kurse von erfahrenen Experten, und einige Präsentationen von Forschenden zu ihrer Arbeit in verschiedenen DH-Bereichen. Man füge ein Rahmenprogramm hinzu, das Exkursionen zu Museen und Kulturstätten beinhaltet und voilà: Im Sommer 2017 war die „Europäische Sommeruniversität- Kulturen und Technologien“ (ESU) ein perfekter Treffpunkt für Forschende, um DH-Methoden zu erlernen und anzuwenden, ihren Horizont um verschiedene DH-Forschungsfragen zu erweitern und ein internationales Netzwerk an Expertise aufzubauen.

Weiterlesen

WebLicht und GermaNet: Im Gespräch mit Professor Dr. Minhaeng Lee

Sprachwissenschaftliche Werkzeuge von Clarin-D im Einsatz für den universitären Unterricht im Bereich "Deutsch als Fremdsprache".

Professor Dr. Minhaeng Lee erklärt in einem Interview eindrücklich, wie er CLARIN-D Ressourcen im Unterricht für Deutsch als Fremdsprache in Süd-Korea einsetzt. Das Video bezieht sich dabei auf Clarin-Ds Software-Angebote:

Ein Wortartentagger für den Parzival

Ein Wortartentagger für den Parzival

Wie oft wünscht man sich, dass man mittelhochdeutsche Texte endlich automatisch mit Wortarten versehen kann? Bei uns lautet die Antwort: ständig. Wenn wir im Kollaborationsprojekt CRETA (https://www.creta.uni-stuttgart.de/) darüber sprechen, wie man Texte aus Bundestagsdebatten, Werther oder Adornos Ästhetischer Theorie mit linguistischen Informationen anreichern kann, fällt der Parzival oftmals mit einem etwas mitleidigen Lächeln unter den Tisch: dafür haben wir nicht die Tools, heißt es dann. Denn für das Mittelhochdeutsche funktionieren Werkzeuge, die für das moderne Deutsch trainiert wurden, erwartungsgemäß nicht besonders gut. Dies, haben wir beschlossen, kann man ändern.

Das erste, was man braucht, wenn man seinen eigenen Wortartentagger erstellen will, sind Trainingsdaten. Als wir mit unserem Vorhaben begonnen haben, war das Referenzkorpus Mittelhochdeutsch (https://www.linguistics.rub.de/rem/), das annotierte mittelhochdeutsche Daten enthält, leider noch nicht veröffentlicht. Das hätte uns damals die Arbeit etwas erleichtert. Wir haben unsere Daten also aus anderer Quelle bezogen. Bei der Mittelhochdeutschen Begriffsdatenbank (http://mhdbdb.sbg.ac.at/) wurden wir fündig. Es handelt sich hierbei zwar nicht um ein mit Wortarten annotiertes Korpus im konventionellen Sinne, aber trotzdem können uns die enthaltenen Annotationen weiterhelfen – Not macht ja bekanntlich erfinderisch. Die Wortarteninformationen, die in der Datenbank enthalten sind, operieren nur auf Ebene der Wortformen und sind losgelöst vom Kontext eines Wortes. Beispielsweise kann das Wort guot als Adjektiv, Nomen oder Adverb verwendet werden (und ist dementsprechend dreifach annotiert); ohne einen konkreten Verwendungskontext lässt sich dies nicht genauer bestimmen.

Hinzu kommt, dass nicht alle möglichen Verwendungsformen der Wörter in der Datenbank abdeckt sind: So kann z.B. daz nicht nur Artikel oder subordinierende Konjunktion sein (Satz 1), sondern auch als Relativ- (2) oder Demonstrativpronomen (3) fungieren:

Weiterlesen