Jump to Navigation

"Culture & Technology" European Summer University in Digital Humanities
University of Leipzig

Text Mining mit Canonical Text Services

Canonical Text Services stellen Textabschnitte über ein URN artiges Referenzierungsschema zur Verfügung. Das zugehörige Protokoll wurde dabei so spezifiziert, dass jeder beliebige Textabschnitt referenziert werden kann.

Die Datenabfrage funktioniert über GET-Abfragen, die über URLs gestellt werden. Die jeweiligen Parameter sowie der Funktionsname werden je nach Funktion als GET-Paramater an die Abfrage angehangen.

Zum Beispiel sieht die CTS Abfrage für den Textabschnitt des 3. Kapitels des Buchs Genesis der englischen King James Bible folgendermaßen aus:

http://cts.informatik.uni-leipzig.de/pbc/cts/?request=GetPassage&urn=urn:cts:pbc:bible.parallel.eng.kingjames:1.3

Weitere Informationen zum Thema können hier recherchiert werden.

Das Ziel des Workshops ist es, die Teilnehmer_innen mit dem CTS Protokoll vertraut zu machen und ihnen die Werkzeuge zum Aufsetzen eines eigenen CTS in die Hand zu geben. Ziel der ersten beiden Tage des Workshops ist es, dass jeder Teilnehmer / jede Teilnehmerin ein eigenes CTS online verfügbar gemacht hat.

Nachdem die CTS Instanzen erfolgreich aufgesetzt wurden, werden die Teilnehmer_innen lernen, wie man Textdaten zwischen diesen klonen sowie mit anderen Forscher_innen teilen kann. Die Werkzeuge, die im Rahmen des Projektes entwickelt wurden, werden vorgestellt, inklusive einem unfassenden Text Mining Framework, zwei Text Alignment Tools und einem Workflow zur Zitationsanalyse.

Programmierkenntnisse sind nicht erforderlich. Für das Aufsetzen der und das Arbeiten mit den CTS Instanzen werden graphische Managementwerkzeuge bereitgestellt. Die Arbeit mit dem text mining Framework sowie der Zitationsanalyse erfordert grundlegende Fähigkeiten in der Arbeit mit Kommandozeilenterminals (UNIX). Es werden virtuelle Maschinen mit vorbereiteten Datensätzen für die Teilnehmer_innen bereitgestellt. Es wird erwartet, dass die Teilnehmer_innen mit TEI/XML Markup vertraut sind. Dieses wird nicht im Rahmen des Workshops gelehrt.

Die Teilnehmer_innen können eigene Daten in den Workshop mitbringen. Für eine bestmögliche Kompatibilität wird UTF-8 Encoding sowie eine generische "TEI/XML div-type Notation" empfohlen, wie beispielsweise in diesem Beispiel. Andere TEI/XML Formate werden wahrscheinlich auch funktionieren. Andere Formate werden zur Zeit nicht unterstützt. Jeder Teilnehmer / jede Teilnehmerin muss sicherstellen, dass die Onlineveröffentlichung der mitgebrachten Texte nicht gegen Lizenzbestimmungen verstößt.

Teilnehmer_innen werden im Rahmen des Workshops Zugang zu den Programmen und den frei in der Leipziger CTS-Infrastruktur erhältlichen Datensätzen - wie beispielsweise Daten basierend auf dem parallelen Bible Korpus, dem Deutschen Textarchiv, den TED Talk Transcripts und weiteren - erhalten und können diese gern nach dem Workshop weiter nutzen.

  • English
  • Italiano
  • The Name
  • Background
  • Mission
  • Audience
  • Workshops
  • Lectures
  • Projects
  • Round Tables
  • Working Languages
  • Impressum
  • Kontakt

2022

  • Important dates
  • Application
  • Workshops
  • Experts
  • ConfTool
  • Scholarships etc.
  • Participation fees
  • Moodle
  • Scientific Committee

2021

  • ESU DH C&T 2021
  • Important dates 2021
  • ConfTool
  • Programme
  • Workshops
  • Experts
  • Application
  • Lectures
  • Scholarships
  • Participation fees
  • Moodle
  • Scientific Committee

2020

  • Important dates
  • Schedule
  • Workshops
  • Lectures (public)
  • Panel (public)
  • Experts
  • Lecturers
  • Application
  • Scholarships
  • Participation fees

2019

  • Schedule
  • Workshops
  • Lectures (public)
  • Projects (public)
  • Poster Session (public)
  • Panel (public)
  • Teasers (public)
  • Cultural programme
  • Experts
  • Lecturers
  • Scientific Committee
  • Important dates (new)
  • Application
  • Scholarships (updated)
  • Participation fees
  • Refund policy
  • T-Shirts
  • Child care
  • Birthday thoughts

2018

  • Schedule
  • Workshops
  • Lectures (public)
  • Projects (public)
  • Posters (public)
  • Panel discussion (public)
  • Teasers (public)
  • Cultural Programme
  • Experts
  • Lecturers
  • Scientific Committee
  • Important dates
  • Application
  • Scholarships
  • Fees
  • Refund policy
  • T-Shirt
  • The logo riddle
  • Child Care

2017

  • Schedule
  • Workshops
  • Lectures (public)
  • Projects (public)
  • Panel (public)
  • Teasers / Specials
  • Cultural Programme
  • Experts
  • Lecturers
  • Scientific Committee
  • Important dates
  • Application
  • Scholarships
  • Fees
  • Refund Policy
  • T-Shirt
  • Flyer
  • Child care

2016

  • Schedule
  • Workshops
  • Lectures (public)
  • Projects & Posters (public)
  • Panel
  • Teasers (public)
  • Slams
  • Experts
  • Lecturers
  • Scientific Committee
  • Important dates
  • Application
  • Scholarships
  • Fees
  • Refund policy
  • Flyer
  • Child Care

2015

  • Schedule
  • Workshops
  • Lectures
  • Projects
  • Posters
  • Panel
  • Teaser / Special sessions
  • Workshop Slams
  • Experts
  • Lecturers
  • Scientific Committee
  • Important dates
  • Application
  • Scholarships
  • Fees
  • Refund policy
  • Child Care
  • T-Shirt 2015
  • Flyer and Poster
  • Sponsorship
  • Questions

2014

  • Schedule
  • Workshops
  • Lectures
  • Projects
  • Panel
  • Experts
  • Lecturers
  • Scientific Committee
  • Important dates
  • Application
  • Scholarships
  • Fees
  • Child care
  • Flyer
  • Sponsorship

2013

  • Schedule
  • Workshops
  • Lectures
  • Projects & Posters
  • Panel
  • Experts
  • Lecturers
  • Project Presenters
  • Scientific Committee
  • Important dates
  • Application
  • Bursaries
  • Fees
  • Refund Policy
  • T-Shirt
  • Certificate
  • Sponsorship

2012

  • Home
  • Schedule
  • Workshops
  • Lectures
  • Project Presentations
  • Poster Slam & Session
  • Panel Discussions
  • Excursion
  • Lecturers
  • Certificate
  • Scientific Committee
  • Important Dates
  • Duration & Structure
  • Application
  • Registration Fees
  • Bursaries

2010

  • Schedule
  • Workshops
  • Instructors
  • Lectures
  • Round table
  • Important dates
  • Application
  • Fees
  • Bursaries

2009

  • Schedule
  • Workshops
  • Instructors
  • Lectures
  • Project presentations
  • Round tabel

Leipzig

  • Contact
  • Mailinglist
  • Host
  • Venue
  • Moodle
  • Accommodation (updated)
  • City Map
  • Arrival
  • Events
  • Weather

What the ESU means to me

ESU in the Media

ESU 2019 Experiences (DARIAH-EU)
ESU 2018 Experiences (CLARIN-D)
ESU 2017 (CLARIN-D Blog)
CLARIN-D at ESU 2015 (YouTube)
CLARIN-D ESU 2015 (YouTube)
Mephisto 97.6 10.07.13
Campus Online 10.08.2012
Mephisto 97.6 26.07.2010
infotvleipzig 26.07.2010
In India 03.09.2010

Reviews

INFOtheka: Review of ESU DH 2009
INFOtheka: Review of ESU DH 2012
Infoclio.ch: Review of ESU DH
2013

Publications

Multimodal Analysis of “well”

Users

  • Login

DAAD

 

CLARIN ERIC

 

Sächsische Akademie der Wissenschaften

 

Universität Leipzig

 

BMBF

 

Electronic Textual Cultures Lab at the University of Victoria & Digital Humanities Summer Institute

CLARIN-D

 

DARIAH-EU

 

Slovenian Language Technologies Society (SDJT)

 

Parthenos

International Centre/AAA

 

Computational Humanities

 

Oxygen XML Editor

 

Universitätsbibliothek