Text Mining with Canonical Text Services - Using a Text Reference System for Citation Analysis, Text Alignment and more
Canonical Text Services stellen Textabschnitte über ein URN artiges Referenzierungsschema zur Verfügung. Das zugehörige Protokoll wurde dabei so spezifiziert, dass jeder beliebige Textabschnitt referenziert werden kann.
Die Datenabfrage funktioniert über GET-Abfragen, die über URLs gestellt werden. Die jeweiligen Parameter sowie der Funktionsname werden je nach Funktion als GET-Paramater an die Abfrage angehangen.
Zum Beispiel sieht die CTS Abfrage für den Textabschnitt vom 3. kapitel des Guch Genisis der englischen King James Bible folgendermaßen aus:
Weitere Informationen zum Thema können hier recherchiert werden.
Das Ziel des Workshops ist es, die Teilnehmer_innen mit dem CTS Protokoll vertraut zu machen und ihnen die Werkzeuge zum Aufsetzen eines eigenen CTS in die Hand zu geben. Ziel des zweiten Tags des Workshops ist es, dass jeder Teilnehmer / jede Teilnehmerin ein eigenes CTS online verfügbar gemacht hat.
Nachdem die CTS Instanzen erfolgreich aufgesetzt wurden, werden die Teilnehmer_innen lernen, wie man Textdaten zwischen diesen klonen sowie mit anderen Forscher_innen teilen kann. Die Werkzeuge, die im Rahmen des Projektes entwickelt wurden, werden vorgestellt, inklusive einem unfassenden Text Mining Framework, zwei Text Alignment tools und einem Workflow zur Zitationsanalyse.
Es werden keine Programmierskills erfordert. Für das Aufsetzen der und das Arbeiten mit den CTS Instanzen werden graphische Managementwerkzeuge bereitgestellt. Die Arbeit mit dem text mining Framework sowie der Zitationsanalyse erfordert grundlegende Fähigkeiten in der Arbeit mit Kommandozeilenterminals(UNIX). Es werden virtuelle Maschinen mit vorbereiteten Datensätzen für die Teilnehmer_innen bereitgestellt. Es wird erwartet, dass die Teilnehmer_innen mit TEI/XML Markup vertraut sind. Dieses wird nicht im Rahmen des Workshops gelehrt.
Die Teilnehmer_innen können eigene Daten in den Workshop mitbringen. Für eine bestmögliche Kompatibilität wird UTF-8 Encoding sowie eine generische "TEI/XML div-type Notation" empfohlen, wie in beispielsweise diesem Beispiel. Andere TEI/XML Formate werden wahrscheinlich auch funktionieren. Andere Formate werden zur Zeit nicht unterstützt. Jeder Teilnehmer / jede Teilnehmerin muss sicherstellen, dass die Onlineveröffentlichung der mitgebrachten Texte nicht gegen Lizenzbestimmungen verstößt.
Teilnehmer_innen werden im Rahmen des Workshops Zugang zu den Programmen und den frei in der Leipziger CTS-Infrastruktur erhältlichen Datensätzen - wie beispielsweise Daten basierend auf dem Parallel Bible Corpus, dem Deutschen Textarchiv, den TED Talk Transcripts und weiteren - erhalten und können diese gern nach dem Workshop weiter nutzen.
Der Workshop ist für 1 Woche geplant.
Einführungskurs zu TEI/XML in Woche 1: From Print and Manuscript to Electronic Version: Text Digitization and Annotation). Wir synchronisieren die Kurse, damit Studierende die Ergebnisse aus Woche 1 weiterverwenden können, wenn sie es möchten. Der Kurs ist auch offen für Studierende, die nicht an diesem TEI/XML Kurs teilgenommen haben.