From Print and Manuscript to Electronic Version: Text Digitization and Annotation
Dieser Kurs bietet eine praktische Einführung in die Methoden des Aufbaus und der Analyse von linguistischen (Text)korpora. Der Fokus liegt dabei zunächst auf historischen Drucken und Manuskripten; zeitgenössische Quellen werden aber in die Betrachtung ebenfalls mit einfließen sowie gegebenenfalls Materialien, die von den Kursteilnehmern bereitgestellt werden.
Wir werden zunächst die Schritte für den Aufbau von Korpora behandeln: von der Textauswahl, dem Umgang mit Metadaten, der Transkription über die (linguistische ebenso wie textstrukturelle) Annotation bis hin zur Präsentation und Bereitstellung von Korpora. Dabei werden Standards und Best Practices für die Datenerfassung und Annotation behandelt und eingeübt, wie etwa die Richtlinien der Text Encoding Initiative (TEI) sowie verbreitete Formate der linguistischen Annotation.
Schließlich werden wir einige grundlegende Möglichkeiten der Korpusanalyse vorstellen, insbesondere unter Berücksichtigung der Angebote der CLARIN-Infrastruktur und des Deutschen Textarchivs.