Nutzung des VLO für ein Promotionsprojekt zu Wissenschaftlichen Lehrbüchern

https://youtu.be/_FTzaOC7Ofg

In diesem Screencast zeigt Melanie Grumt Suárez, Wissenschaftliche Mitarbeiterin der CLARIN F1, wie das Virtual Language Observatory (VLO) für ein Promotionsprojekt zu wissenschaftlichen Lehrbüchern genutzt werden kann, um historische Lehrbücher und digitale Werkzeuge in der CLARIN-D-Umgebung mit dem Language Resource Switchboard (LRS) aufzufinden.

Was ist das VLO

Das VLO ist eine spezielle Suchmaschine zum Auffinden von Forschungsdaten und digitalen Werkzeugen innerhalb der CLARIN Forschungsinfrastruktur. Es besteht aus einem großen Katalog an Metadaten, der mittels Textsuche sowie facettierter Suche durchsucht werden kann. Ersteres erfordert die Eingabe bestimmter Schlüsselbegriffe die in Beschreibung oder Titel der entsprechenden Ressource vorkommen. Bei der facettierten Suche kann der Suchbereich eingeschränkt werden, um so gezielt nach ausgewählten Sprachen, Formaten, Kollektionen, etc. zu suchen. Eine Kombination beider Suchfunktionen ist ebenfall möglich. Darüber hinaus können über das LRS passende digitale Werkzeuge zur Auswertung ausgewählt werden.  

In der Textsuche des VLO kann nun also ein Suchbegriff, wie beispielsweise Lehrbuch eingegeben werden. Die 781 Treffer die hierbei erscheinen sind nach Relevanz in den Metadaten und ihrer Verfügbarkeit sortiert. So werden Treffer in denen der exakte Suchbegriff vorkommt höher gestuft als solche, in denen der Suchbegriff nur in der Beschreibung der Ressource vorkommt. In einem Vorschaufenster können bereits wichtigste Informationen über die Ressource wie Titel, Kollektion und Datenmenge ausgelesen werden. Das Icon rechts neben dem Treffer zeigt an, ob die Quelle öffentlich verfügbar ist. Beim Klicken auf einen bestimmten Treffer gelangt man zum vollständigen Eintrag des Titels. Dieses sogenannte Stammblatt enthält weitere Reiter für Auswahlen wie technische Details und verfügbare Metadaten, Verfügbarkeit und Lizenzen. Beim Klicken auf Ressources kann die Originalquelle angezeigt werden. Dies ist wichtig um sicherzustellen, ob und wie das Werk genutzt werden darf.

Die facettierte Suche bietet die Möglichkeit die gefundenen Treffer nach unterschiedlichen Kategorien wie Sprache, Kollektion oder Typ der Ressource einzuschränken. Frau Grumt Suárez nutzt für ihr Projekt das VLO um herauszufinden, wo deutsche Schulbücher verzeichnet sind. Hier ist der beste Weg der über die Kollektionen, welche miteinander verknüpft werden können. Grumt Suárez interessiert sich for solche Forschungsdaten, die als XML vorliegen, da diese zur Weiterverarbeitung in einem XML Editor genutzt werden können. Diese Einschränkung kann durch Klicken auf Format und application XML vorgenommen werden. Viele Einträge sind nun verschwunden und nur noch 11 vom DTA bereitgestellte Titel werden angezeigt. Auch hier kann man nun wieder das Stammblatt aufrufen und über einen Klick unterhalb des Titels auf die Quelle der Seiten des DTA gelangen. 

Auch die digitalen Werkzeuge, passend zur Sprachressource, können direkt im VLO aufgefunden werden. Wählt man beispielsweise bei Sprache German und bei Format Text Plain aus und sucht nach Mainzer Journal 106, so werden zunächst wieder Inhalt und Typ der Ressource angezeigt. Im zweiten Reiter ist das LRS eingebettet, welches bei der Auswahl des geeigneten digitalen Werkzeugs behilflich ist. Die Angaben die zum Auffinden eines Werkzeuges notwendig sind, werden automatisch aus den Metadaten ausgelesen. Über show tool können die Werkzeuge nun angezeigt werden. Sie bekommen nun eine Liste an Werkzeugen für verschiedene computergestützte Verfahren zur Analyse geschriebener Sprache. Sollen beispielsweise Eigennamen in historischen Journalen wie dem Mainzer Journal extrahiert werden, so kann dafür WebLicht genutzt werden, welches eine automatische Eigennamenerkennung bietet. Durch den Aufruf über das LRS kann WebLicht in diesem Fall ohne Anmeldung genutzt werden.  

Zusammenfassend lässt sich also sagen, dass das VLO die Möglichkeit einer einfachen und schnellen Navigation durch große Mengen an Sprachressourcen und digitalen Werkzeugen, sowie das Einschränken von Treffen und Features wie Sprache und Format ermöglicht.

Geschrieben von : Sarah Schneider

1000 Buchstaben übrig