CLARIN-D Blog

CLARIN-D Newsflash Juli 2020

CLARIN-D Newsflash Juli 2020

Tour de CLARIN: CLARIN-D im Porträt von April-Mai 2020

Von April bis Mai 2020 war das deutsche CLARIN Konsortium Gastgeber der Tour de CLARIN. Die Tour de CLARIN ist ein etabliertes CLARIN Format, das die europäischen CLARIN Konsortien in den Blick nimmt und deren Schwerpunkte und Ergebnisse vorstellt. Die CLARIN Länder werden in Blogposts und nach den Themenblöcken „Introduction“ (Überblick), „Tool“, „Resource“, „Event“ und „Interview“ einheitlich porträtiert.

CLARIN-D wurde in den folgenden fünf englischsprachigen Blogposts präsentiert:

Wir bedanken uns ganz herzlich bei allen Beitragenden und Interviewten!

Neue Ressourcen

Das CLARIN-Zentrum an der Universität des Saarlandes hat eine neue Version des Royal Society Corpus veröffentlicht. Die neue Version enhält zusätzlich Texte aus 50 weiteren Jahren.

Das CLARIN-Zentrum an der Universität Tübingen hat GermaNet 15.0 veröffentlicht.

Seit diesem Sommer ist eine neue Version des Index Thomisticus Treebank (ITTB) in Tündra und über das Tübinger Archive of Language Resources verfügbar.

Das Deutsche Textarchiv (DTA) hat die Nutzungsbedingungen für DTA-Korpora gelockert, für wesentliche Teile des DTA entfällt jetzt die "Non-Commercial"-Einschränkung.

Neue Lexika und Wörterbücher in DTA und DTAQ: Im Rahmen der Kuration historischer Wörterbücher und Lexika zur Integration in die CLARIN-D-Infrastruktur wurden an der BBAW drei neue Lexika

Read more

Blogpost von Sonja Heinze

Fünf Tage „Spiel, Spaß und Digital Humanities“: Ein Bericht zur DHd2020

 

-- Ein Blogpost von Sonja Heinze (Uni Leipzig) -- 

 

Montag (Tag 1)

Auf geht es von Leipzig nach Paderborn und das nicht alleine. Am Leipziger Bahnhof treffe ich Jan und Lea. Zusammen geht die Reise los. Bis kurz vor Hannover läuft alles planmäßig, doch dann heißt es auf einmal leider Streckensperrung und somit wird unsere Anreise plötzlich abenteuerlicher als geplant. Nach unbestimmter Wartezeit, sowie etwas Hin und Her, kommen wir um 16 Uhr mit gut drei Stunden Verspätung am Zielort Paderborn an.

 

 

 Abbildung 1: Anreise nach Paderborn

Die Verspätung hat zur Folge, dass wir es nicht mehr zu den Workshops schaffen. Wir sind aber gerade noch rechtzeitig da zur Registrierung und zum Treffen der neuen AG Digital Humanities Theorie, an dem wir aus purer Neugier teilnehmen. Dieser Programmpunkt stellt den Auftakt meiner DHd-Woche dar. Der Raum ist bis auf den letzten Platz gefüllt, manche Personen stehen sogar. Aus den Berichten über den vorangegangenen Workshoptag wird deutlich, wie zentral und wichtig im ersten Schritt die Begriffsarbeit in den Digital Humanities sein wird. Die Veranstaltung ist so gestaltet, dass man sich an Tischen trifft und sich zu einem bestimmten DH-Thema austauscht. Ich merke gleich, dass am Anfang eines Gespräches an einem dieser Themen-Tische zunächst unmittelbar der Wunsch besteht, fachliche Begriffe zu schärfen. Nur damit ist gewährleistet, dass wir miteinander über den gleichen Gegenstand reden.

Am Ende des AG Treffens bin ich sehr froh daran teilgenommen zu haben und bin ganz gespannt wie sich diese AG weiterentwickeln wird. Es scheinen auf jeden Fall alle sehr motiviert zu sein und die AG Digital Humanities Theorie trifft in

Read more

DHd2020: Blogpost von Nathalie Wiedmer

DHd2020 - Endlich ganz in der Community angekommen

-- Ein Blogpost von Nathalie Wiedmer (SFB 1391) --

Als ich mit dem Schreiben anfange, stelle ich mir die Frage, wie ich diesen Blogbeitrag aufbauen soll. Auf was soll ich eingehen? Ausschließlich auf besuchte Vorträge, auf meinen eigenen Vortrag oder insgesamt auf meine Erfahrungen? Ein kurzer Blick auf die Beiträge anderer Stipendiatinnen und Stipendiaten genügt, um mir zu zeigen, dass von Beiträgen, die vor allem die Vorträge und Themen Revue passieren lassen, bis hin zu ganz persönlichen Erfahrungsberichten alles dabei ist. Erwünscht ist, was gefallen, beeindruckt und interessiert hat. Was hat mir selbst also besonders gefallen, mich interessiert und beeindruckt? Das ist gar nicht so leicht zu sagen, denn es gab so viele tolle Momente, interessante Themen und Menschen, dass die Auswahl nicht leichtfällt. Also der Reihe nach:

 

Die ersten beiden Workshoptage

Am Montag komme ich nach einer erstaunlich reibungslosen Zugfahrt in Paderborn an. Nach einer kurzen Stärkung mit Kaffee und Keksen geht es direkt zu meinem ersten Workshop mit dem Thema „Bias in Datensätzen und ML-Modellen: Erkennung und Umgang in den DH“. Warum dieser Workshop? Weil ich mich mit dem Thema Bias noch nicht intensiv auseinandergesetzt habe. Ich habe keine eigenen Testdaten mitgebracht, will nur dabeisitzen, zuhören und lernen. In diesem Fall ist das nicht ideal. Also freue ich mich, dass ich einen Kollegen entdecke, den ich bei der DH 2019 in Utrecht kennengelernt habe und setze mich zu ihm. Mit ihm finde ich auf seinen Textdaten heraus, dass in der Welt von Groschenromanen die Bedeutung von weiblichen Figuren in der Nähe von Kindern, Haus und Berufen als Krankenschwester zu finden sind und männliche in der Nähe von Autos und

Read more

DHd2020: Blogpost von Marlene Kirsten (Universität Bonn)

Zwischen Theorie und Praxis: Bericht von der DHd 2020

-- Ein Blogpost von Marlene Kirsten (Uni Bonn) --

 

Abb. 1: Zwischen den Stühlen? Sitzbank vor dem Franziskanerkloster in Paderborn

 

 Die DHd2020 verlasse ich mit einem vollgeschriebenen Block, neuem Vokabular, einem Code-Editor auf dem Laptop, aber ohne Sticker auf demselben und dem Gefühl, in den letzten Tagen eine Menge über Digital Humanities gelernt zu haben.

Als ich mich entschieden habe, die Jahrestagung der DHd zu besuchen, war meine größte Motivation, dass ich mein theoretisches Wissen über das Forschen und Arbeiten der Digital Humanities gerne in der Realität überprüfen wollte. Ich habe ein ‚klassisches‘ geisteswissenschaftliches Studium der Germanistik und im Bachelor auch der Kunstgeschichte durchlaufen und bin mit den Digital Humanities nur durch Zufall und am Rande in Berührung gekommen. Mein Konferenzbericht ist an manchen Stellen daher auch der einer Außenstehenden, der gerade Differenzen, vielleicht Eigenarten auffallen. Er konzentriert sich auf die beiden Workshoptage.

DH als „Ort der epistemischen Selbstaufklärung“

Am ersten Tag nahm ich am World Café zu „Spielplätze[n] der Theoriebildung in den Digital Humanities“ teil und setzte mich mit einem Thema auseinander, dessen Etablierung in der Fachcommunity von der bei der Jahrestagung offiziell neu gegründeten AG Digital Humanities Theorie vorangetrieben wird. Nach kurzer Zeit tauchte an allen Thementischen, die ich besuchte, die Frage auf: Was meint aber nun Tool, Methode oder Theorie? Die Versuche einer Begriffsbildung und -definition erinnerten mich sehr an die traditionellen Geisteswissenschaften, bekamen aber ob der verschiedenen Fachhintergründe eine eigene Dringlichkeit, um Kommunikation zu ermöglichen.

Aus meiner Sicht am spannendsten waren die Debatten zur Wissenschaftstheorie, die Rabea Kleymann leitete. In meiner Diskussionsrunde mit u.a. einem Philosophen, einem Linguisten und mehreren Literaturwissenschaftlern zeigte sich für mich,

Read more

DHd2020: Blogpost von Nina C. Rastinger (ÖAW)

Über das Sichtbarmachen des Suchens und die Faszination des Findens: 

Ein Rückblick auf die DHd2020 anhand ausgewählter Konferenz-Momente

 

-- Ein Blogpost von Nina C. Rastinger (ÖAW) -- 

 

Fünf volle Tage DHd2020

Montag, 02.03.2020, 14 Uhr:

Die DHd-Jahrestagung startet mit einer Reihe an Workshops und für mich mit einer praktischen Einführung in das Annotations-, Analyse- und Visualisierungs-Tool CATMA 6, die von Mareike Schumacher und Jan Horstmann gegeben wird. Als Use-Case dienen Fälle von transponierter, erzählter und zitierter Rede in Kafkas Erzählung Erstes Leid – und diese zeigen, dass das Erstellen von Annotationstaxonomien und Setzen von Annotationen mit CATMA 6 zwar nun technisch einfach, ontologisch aber immer noch äußerst komplex ist.

Abbildung 1: Screenshot des Annotationsprozesses in CATMA 6

Dienstag, 03.03.2020, 12 Uhr:

Zwischen den Workshops trifft sich die AG Zeitungen & Zeitschriften zu ihrem ersten von zwei Treffen während der Tagung. Dabei hält Dario Kampkaspar fest, dass die Texterkennung historischer Zeitungen mit OCR oder HTR bereits relativ gut funktioniert, weshalb er die neuen Herausforderungen der Arbeitsgemeinschaft besonders im Bereich der Infrastruktur, der Bildqualität und der Layouterkennung sieht. Zudem stellt sich den Anwesenden die Frage, was denn nun eigentlich genau einen Zeitungsartikel ausmacht und wie dieser (automatisch) identifizierbar gemacht werden könnte.

Dienstag, 03.03.2020, 14 Uhr:

Auch im Rahmen des Tagungstagespunkts „Vom Phänomen zur Analyse – ein CRETA-Workshop zur reflektierten Operationalisierung in den DH“ geht es um für Forschende grundlegende Fragen – etwa: Wie können abstrakte und vage Konzepte, die mehr qualitativ als quantitativ gedacht werden, gemessen werden? Eine beispielhafte Antwort, die das CRETA-Team bereithält: Anstelle geisteswissenschaftliche Konzepte in ihrer Gesamtheit bemessen zu wollen, kann es von Vorteil sein, sie im Sinne einer approximativen Operationalisierung in einzelne messbare

Read more

CLARIN-D Newsflash April 2020

CLARIN-D Newsflash April 2020

Konferenzen

Bei der DHd 2020 in Paderborn gab es einen Informationsstand von CLARIAH-DE, bei dem das Projekt vorgestellt und präsentiert wurde.

Als eine der letzten größeren wissenschaftlichen Tagungen vor der Corona-Krise fand die Jahrestagung des IDS vom 10. bis 12. März in Mannheim statt.

Starken Bezug zu Sprachressourcen hatten insbesondere die Vorträge am zweiten Tag: Erhard Hinrichs (IDS und Universität Tübingen), sprach über „Multilinguale Sprachressourcen für die linguistische Forschung“, hob die Notwendigkeit und die Vorteile einer verteilten und vernetzten Struktur von Datenzentren hervor und thematisierte die Wichtigkeit von Zertifizierung und Qualitätssicherung, die Einbindung in die Roadmap des Europäischen Strategieforums für Forschungsinfrastrukturen (ESFRI) und die Integration von CLARIN und DARIAH im Projekt CLARIAH-DE, auch in Hinblick auf die Nationale Forschungsdateninfrastruktur. Josef van Genabith (Deutsches Forschungszentrum für Künstliche Intelligenz) sprach über „Sprachdaten und automatische Übersetzung in Europa“. Bei Beata Trawiński und Marc Kupietz (IDS) ging es „Von monolingualen Korpora über Parallel- und Vergleichskorpora zum Europäischen Referenzkorpus EuReCo“, während Anke Lüdeling (Humboldt-Universität Berlin) „Lernerkorpora“ beleuchtete, d.h. die Nutzung von Korpora bei der Untersuchung von Zweit- oder Fremdspracherwerb.

Im März 2020 hat Thorsten Trippel bei der Jahrestagung der Deutschen Gesellschaft für Sprachwissenschaft (DGfS) in Hamburg die Initiative Text+ vorgestellt und über die neuesten Entwicklungen die NFDI betreffend und über den strukturellen Aufbau der Initiative berichtet. Dieser Vortrag erhielt positives Feedback von der DGfS, die sich auch weiterhin in Text+ engagieren möchte.

Elke Teich hat auf der Jahrestagung der Deutschen Gesellschaft für Sprachwissenschaft eine Keynote zum Thema "Language Variation and Change: A communicative perspective" gehalten.

Ankündigung Webinar

Am Donnerstag, 16. April um 11 Uhr gibt Andreas Blätte, organisiert von der Social Sciences and Humanities Open Cloud (SSHOC), das Webinar "Quanlify with ease: Combining quantitative

Read more

Alexander von Humboldts berühmte „Kosmos-Vorlesung“ an der Berliner Sing-Akademie (1827/28): von der digitalen zur Druckausgabe

Ein Blogbeitrag von Christian Thomas (CLARIN-D, BBAW)

Buch: Alexander von Humboldt, Henriette Kohlrausch: Die Kosmos-Vorlesung an der Berliner Sing-Akademie. Hrsg. von Christian Kassung und Christian Thomas. Berlin: Insel Verlag, 2019. (insel taschenbuch 4719, ISBN 978-3-458-36419-1) Verlagsseite: https://www.suhrkamp.de/buecher/die_kosmos-vortraege-alexander_von_humboldt_36419.html.

 

Abb. 1: Cover insel taschenbuch 4719, © Insel Verlag Berlin.

Hintergrund: Alexander von Humboldts legendäre „Kosmos-Vorlesungen“

Alexander von Humboldts legendäre „Kosmos-Vorlesungen“, die im Jahre 1827/28 an der Berliner Sing-Akademie (damals die größte Vorlesungshalle der Stadt, heutzutage der Sitz des Maxim Gorki Theaters) gehalten wurden, stellen einen entscheidenden Moment in der Geschichte der Popularisierung der Wissenschaft dar. Im Winter 1827/28 nahmen rund tausend Berliner*innen und internationale Gäste an den 16 aufeinanderfolgenden Vorlesungen teil. In einem umfassenden „Naturgemälde“ bot Humboldt ihnen einen weitreichenden Überblick über die wissenschaftlichen Kenntnisse seiner Zeit, von astronomischen, geographischen, geologischen und biologischen Themen hin zu kulturellen und sozialen Gebieten. Das Publikum bestand aus einem weiten Spektrum der Gelehrtengesellschaft und interessierten Laien, darunter auch – von Humboldt ausdrücklich dazu eingeladen – Frauen, denen bis zum Ende des neunzehnten Jahrhunderts preußische Universitäten verschlossen blieben. Da Humboldt selbst die Vorlesungsreihe nie veröffentlichte, gewinnen die ausführlichen Notizen, die viele seiner Zuhörer*innen schrieben und die in verschiedenen Archiven und Privatbesitzen in Deutschland, Polen, der Türkei und Norwegen vorliegen, noch mehr an Bedeutung, da sie authentische Zeugnisse darstellen, die diesen wichtigen Moment in der Wissenschaftsgeschichte dokumentieren.

Der vor kurzem veröffentlichte Band Die Kosmos-Vorlesung an der Berliner Sing-Akademie, herausgegeben von Christian Kassung und Christian Thomas, präsentiert den verlässlichen und vollständigen Text der Vorlesungsreihe zum ersten Mal in der Druckausgabe. Der editierte Primärtext wurde auf Grundlage des einzigartigen Manuskripts, das in der Staatsbibliothek zu Berlin vorliegt, korrigiert. Ein detailliertes Vorwort der Herausgeber bietet Erklärungen

Read more

CLARIN-D Newsflash Januar 2020

Buchveröffentlichung des Deutschen Textarchivs

2019, zum Jubiläum, seines 250. Geburtstages, ist im Suhrkamp/Insel Verlag eine Nachschrift der ›Kosmos-Vorträge‹ Alexander von Humboldts in einer gedruckten Ausgabe, herausgegeben von Christian Kassung (Humboldt-Universität zu Berlin) und Christian Thomas (BBAW), erschienen. Mit diesem Manuskript der Henriette Kohlrausch, deren bislang unbekannte Verfasserschaft in diesem Band belegt und erstmals einer breiten Öffentlichkeit bekannt gemacht wurde, liegt somit die einzige bekannte Nachschrift der populären Vorträge in der Berliner Sing-Akademie in einer zuverlässigen, anhand der Handschrift geprüften Textfassung vor. Diese basiert auf der gemäß TEI-XML im DTA-Basisformat für Manuskripte (DTABf-M) annotierten Textgrundlage, die 2014/15 im »Hidden Kosmos«-Projekt erstellt und im Deutschen Textarchiv publiziert wurde.

Neue Ressourcen

Das Saarbrücker Kochbuch-Corpus (SaCoCo) kann jetzt unter einer freien Lizenz heruntergeladen werden.

Neue Services

Die BAS WebServices veröffentlichen eine erste Alpha-Version des neuen Services 'Speaker Diarization'. Speaker Diarization, d.h. die Klassifikation und Segmentierung von Sprachaufnahmen nach Sprecher-Identitäten, ist nach wie vor eines der schwierigsten Probleme der KI. Mit dem neuen Services des BAS können Anwender z.B. ihre Interview-Video-Aufzeichnungen automatisch in Interviewer und Interviewee trennen.

Im Transkriptionseditor Octra sind nun Spracherkennung und Segmentation direkt verfügbar. Sie öffnen eine .wav-Audiodatei in Octra, drücken die Taste M, warten ein wenig und dann erscheint eine Wortsegmentation des Wortlauts – korrigieren Sie diese manuell und exportieren Sie sie in eine Vielzahl von Formaten. Einfach magisch!

Neue Werkzeuge für das Deutsche Textarchiv über CLARINs Language Resource Switchboard (LRS) zugänglich. Im Rahmen des für 25 Monate angelegten Verbundprojekts CLARIAH-DE mit dem vornehmlichen Ziel, die beiden mit Mitteln des Bundesministeriums für Bildung und Forschung (BMBF) aufgebauten geisteswissenschaftlichen Forschungsinfrastrukturen CLARIN-D und DARIAH-DE zu einer gemeinsamen digitalen Forschungsinfrastruktur zusammenzuführen, wurden an der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW) neue

Read more

BAS WebServices gewinnen Google Wissenschaftspreis in Höhe von $5000

Das CLARIN-D Zentrum Bayerisches Archiv für Sprachsignale (BAS) in München hat sich für ein Google Research Credit Grant beworben und sie wurden ausgezeichnet. Nutzende haben ab sofort mehr Rechenleistung für automatische Transkriptionen von audio-visuellen Sprachdaten zur Verfügung. Wir gratulieren Florian Schiel und seinen KollegInnen am BAS recht herzlich zur Verleihung des Google Wissenschaftspreises in Höhe von 5000 Dollar. Die Förderung hat am 1. Januar 2020 begonnen.

Was sind Google Research Credit Grants?

Das US-amerikanische Technologieunternehmen Google hat eine große Division namens “Google Cloud Processing” (GCP), das zahlreiche KI-Anwendungen als (kostenpflichtige) Webservices anbietet. In dieser Abteilung gibt es ein Programm “GCP Education”. In diesem Programm können sich vor allem Studierende um sogenannte “credits” bewerben, die für GCP Anwendungen eingesetzt werden können. Aber auch WissenschaftlerInnen dürfen sich mit einem Projektantrag um kleine grants bewerben, sogenannte “research credits”. Es gibt keine Bewerbungsfrist, sondern Einsendungen können in einem laufenden Verfahren eingereicht werden. Weitere Informationen zum Bewerbungsprozess finden Sie in den Programm-FAQs. 

Anwendungsszenarien von Google Services am BAS

Die BAS WebServices verwenden unter anderem auch Google Cloud Automatic Speech Recognition für die vollautomatische Annotation von audio-visuellen Daten (siehe Services "ASR" und "Pipeline"). Um ihren Anwendern mehr Rechenleistung in diesem Bereich zu bieten, hat sich Florian Schiel bei Google um einen "research credit grant" beworben. Thematisch hat er sich für die Entwicklung der BAS WebServices und die Integration von Google Cloud Anwendungen entschieden.

BAS-Nutzende profitieren von der Verleihung

Seit der Vergabe am 1. Januar 2020 können Nutzende der BAS WebServices jeden Monat ca. 1,7 Mio Sekunden automatische Transkription kostenfrei für ihre Projekte einsetzen. In den ersten zwei Wochen des Januars haben Nutzende davon bereits 236580 Sekunden verbraucht. Die Resonanz ist also erfreulich hoch. Die

Read more

Erfolgreiche Abschlussveranstaltung der CLARIN-D Facharbeitsgruppen: Ein Abschied mit Wiedersehen!

Am 14. November 2019 fand die Abschlussveranstaltung der CLARIN-D Facharbeitsgruppen (F-AGs) in der Neuen Aula der Eberhard-Karls-Universität Tübingen statt. Mehr als 20 Teilnehmerinnen und Teilnehmer fanden sich in den repräsentativen Räumen der Universität zusammen, um noch einmal ein Resümee aus der jahrelangen Arbeit der F-AGs in CLARIN-D zu ziehen: Seit Projektbeginn arbeitet CLARIN-D eng mit Forschenden aus verschiedenen Wissenschaftsbereichen zusammen, weswegen es von Anfang an wichtig war, den Input durch Facharbeitsgruppen einzubeziehen. Diese dienten als Impulsgeber in ihren Communities und erstellten beispielsweise Kurationsprojekte. Bei der Abschlussveranstaltung der F-AGs war neben den Leitungen der F-AGs, den Mitarbeitenden und Ehemaligen, auch die Vertreterin des Projektträgers, Dr. Maria Böhme (DLR) anwesend, sowie die Leitungen der CLARIN-D Zentren. Während der Veranstaltung wurde einerseits ein Rückblick auf die geleistete Arbeit und andererseits ein Ausblick auf künftige Zusammenarbeit in anderen Kontexten gegeben: Die Arbeit der F-AGs ist so zentral wie auch “community driven” und die Bedarfe der Nutzenden wachsen stetig, sodass die F-AGs mit hoher Wahrscheinlichkeit an anderer Stelle und mit einem neuen Label fortgeführt werden.

Nach einer Begrüßung durch Thorsten Trippel (F-AG 6, Tübingen) folgte ein vierteiliger Abschnitt aus Retrospektive und Prospektive, der von Vertreterinnen und Vertretern der F-AGs gestaltet wurde: Zunächst eruierte Cathleen Kantner als Leiterin der F-AG 7 (Sozialwissenschaften) die Kennzeichen von Infrastrukturen im Allgemeinen, um dann im Fortgang über die  Etablierung von Forschungsinfrastrukturen in den Digital Humanities im Kontext von hochinnovativen Forschungsprojekten zu sprechen. Sie hob hervor, dass durch diese  Entwicklungen die aktuellen Forschungsdebatten der Fächer einbezogen seien. Die F-AGs hätten zudem Kommunikationsstrukturen und “Feedbackloops” mit den Nutzenden (gemeint sind auch die “User Communities”, von denen häufiger die Rede ist) aufgebaut. Cathleen Kantner stellte beispielhaft die Projekte PolMine

Read more