Zugang zu einer Auswahl von Sprachaufnahmen und -annotationen per autorisiertem Download

 

Große Sammlungen von Sprachaufnahmen und -annotationen enthalten verschiedene Teilkorpora, die in Forschungskontexten besonders relevant sind. Daher ist es ein besonderes Interesse Zugang zu diesen Korpora zu bekommen. Innerhalb der CLARIN-Infrastruktur sind viele Datensätze für die akademische Forschung zugänglich, dies erfordert jedoch, dass man sich als Mitglied der akademischen Gemeinschaft authentifiziert. Um nicht die vollständige, zum großen Teil für die eigene Forschung irrelevanten Daten mit zu betrachten, kann man Kriterien bestimmen, die die Daten in der Sammlung erfüllen müssen. Diese Sammlungen können dadurch auch zu unterschiedlichen Ausgangskorpora gehören.

Besonders interessant für Forschende aus den

  • Geisteswissenschaften, die sich für empirische Studien der gesprochenen Sprache interessieren
  • Sprachtechnologen

Ausganslage:

Wir wissen, dass das CLARIN-Repositorium am BAS eine Suche über mehrere Korpora ermöglicht und man die Ergebnisse herunterladen kann.

Ziel:

Alle Aufnahmen herunterladen, die deutsche Dialoge enthalten, bei denen mindestens ein Sprecher Russisch als Muttersprache hat.

Lösung:

Das Repositorium aufsuchen, sich anmelden, eine Suche über mehrere Korpora durchführen und das Ergebnis herunterladen.

Verwandte CLARIN-D-Werkzeuge und -Dienste

Eine Kurzanleitung wie man über mehrere Korpora sucht

  1. Öffnen Sie Ihren Browser, etwa Chrome oder Firefox, und
  2. Googlen Sie nach "BAS CLARIN repository" oder
  3. Klicken Sie auf den Link zum "BAS CLARIN repository"
  4. Sie gelangen zur Hauptseite des CLARIN-Repositoriums am BAS.
  5. Um die Daten aus dem CLARIN-Repositorium des BAS herunterzuladen muss man sich als akademischer Nutzer ausweisen. Dies geschieht folgendermaßen:
    • Klicken Sie auf den Link 'Login via your institution' unterhalb des CLARIN-Logos.
    • Es erscheint eine Seite, die europäische akademische Forschungseinrichtungen auflistet.
    • Suchen Sie Ihre Forschungseinrichtung, falls Sie kein AAI-fähiges Konto Ihrer Heimatintitution haben, wählen Sie 'clarin.eu website account'.
    • Es erscheint eine Login-Seite Ihrer Forschungseinrichtung.
    • Melden Sie sich an mit Ihren üblichen Angaben, in der Regel ist dies Ihr Universitätskonto.
    • Anschließend erscheint wieder die Seite des CLARIN-Repositoriums am BAS; unterhalb des BAS Logos sollten Sie folgendes sehen: 'You are authentified to have full access to the BAS repository'. 
  6. Klicken Sie im Menü links auf 'Search'.
  7. Es erscheint eine Suchmaske des CLARIN-Repositoriums am BAS
  8. Unter 'Language' (Sprache) wählen Sie 'German' (Deutsch).
  9. Unter 'Conversation Type' (Art der Konversation) wählen Sie 'dialogue' (Dialog)
  10. Unter 'Actor's mother tongue' (Muttersprache eines Teilnehmers) wählen Sie 'Russian' (Russisch)
  11. Entfernen Sie die Auswahl des Radio-Knopfes 'Exact match'
  12. Klicken Sie auf 'Submit'
  1. Es erscheint eine Liste von Aufnahmen, die Ihrer Beschreibung entsprechen; jede davon ist durch Metadaten beschrieben. Sie können auf einen Namenslink für eine bestimmte Aufnahme-Session klicken, um weitergehende Beschreibungen anzuzeigen und die Links zu bestimmten Signaldateien und Annotationen zu sehen. 
  2. Scrollen Sie nach unten zum Abschnitt 'Download'. Falls Ihre E-Mail-Adresse noch nicht eingetragen ist, füllen Sie das Feld mit der E-Mail-Adresse aus, an die das Repositorium einen Download-Link schicken kann, stimmen Sie den Nutzungsbedingungen "Terms of usage" zu, wählen Sie 'annotation files only' (nur Annotationsdateien, sonst kann so ein Archiv ziemlich groß werden, in diesem Fall 4,6 GB)  und klicken Sie auf 'create and download .tar archive' (.tar-Archiv erstellen und herunterladen).
  3. Nach wenigen Sekunden erscheint die Meldung, dass Ihre Anfrage eingegangen und Sie sehen die Meldung: 'An email containing the download link will be sent to: (your email address)' (Eine E-Mail mit dem Download-Link wird an folgende Adresse gesandt: (Ihre E-Mail-Adresse)
  4. Im Hintergrund wird das Download-Packet zusammengestellt. Sobald verfügbar wird Ihnen der Download-Link geschickt. Die E-Mail sieht etwa folgendermaßen aus:
    "The requested tar archive has been created on 2015-12-14T14:54:13.000Z.
    Please follow this download link:
    [....]
    The archive will be available for 24 hours from now on."
  5. Klicken Sie auf den Link oder kopieren Sie die Adresse (URL [....]) in die Adresszeile Ihres Browsers.
  6. Das heruntergeladene Archiv mit der Endung *.tgz enthält ein Unterverzeichnis mit dem Namen des Sprachkorpus', z.B. allDownloadQuery oder SVC. In diesem Unterverzeichnis befindet sich die Dokumentation und ein gesondertes Unterverzeichnis für jede Aufnahmesession.