Jump to Navigation

"Culture & Technology" European Summer University in Digital Humanities
University of Leipzig

OCR4all – Ein Open-Source-Tool für den vollständigen OCR-Workflow zur Erstellung eines digitalen Textkorpus

Warum OCR?

Zahlreiche Geisteswissenschaften sind zunehmend mehr auf digitale Versionen ursprünglich gedruckter oder geschriebener Textcorpora angewiesen, deren Übereinstimmung mit der Vorlage für wissenschaftliche Zwecke bei ≥ 99,95 % und bei historisch-kritischen digitalen Editionen bei 100 % liegen muß. Dafür stellte double-keying bis vor wenigen Jahrzehnten das Standardverfahren dar: zwei Personen transkribieren unabhängig voneinander manuell den gleichen Text und beide Versionen werden nachfolgend vereinigt. OCR setzt sich dank neuronaler Netze aktuell bei der Erkennung von Inkunabeln genauso wie arabischer Texte und südindischer Schriften als preiswertere Alternative zum Double-Keying durch. Die typen- beziehungsweise schriftschnittspezifischen Modelle liefern mit ihrer Erkenntnisgenauigkeit von ≥ 99,97 % Ergebnisse, die mit einem vertretbaren Aufwand der Nachkorrektur auch für historisch-kritische digitale Editionen verwendbar sind.

OCR4all

Der Workshop stellt Textwissenschaftler*innen aller Fächer OCR4all vor, ein Open-Source-Tool für OCR, das an der Universität Würzburg entwickelt worden ist und mit dem Einzelpersonen oder kleine Forschergruppen mit wenig technischer Vorerfahrung Texterkennung mit sehr guter bis ausgezeichneter werkspezifischer Erkennungsrate durchführen und selbständig digitale Volltexte erstellen können. Selbstständig verwendbar spricht der in OCR4all implementierte Workflow dezidiert nicht-informatisch vorgebildete Nutzer*innen an und kombiniert unterschiedliche Arbeitswerkzeuge und Tools unter einer Benutzeroberfläche.

Resultate

Das Ausgangsmaterial der hochauflösenden TIFF für das OCR – entsprechend den DFG-Praxisregeln »Digitalisierung« – bleibt unverändert und als Endergebnis werden

  1. der korrekte Volltext,
  2. plattform- und programmunabhänge XML-Dateien mit der Beschreibung der Positionen der Textregionen auf dem jeweiligen Digitalisat (PAGE-XML), sowie
  3. werkspezfische OCR-Modelle, die für die Texterkennung weiterer gedruckter Texte verwendbar sind,

ausgegeben.

Die Teilnehmer*innen des Workshops sind nach einer Woche in der Lage mit OCR4all selbständig digitale Textfassungen aus Bilddigitalisaten zu erstellen und OCR-Trainingsmodelle bezüglich ihrer Erkennungsrate zu beurteilen. Dafür werden abwechselnd die grundsätzlichen Arbeitsschritte beim OCR und deren Durchführung mit OCR4all vorgestellt. Alle Inhalte stimmen mit den in den DFG-Praxisregeln »Digitalisierung« genannten Anforderungen überein. Die Orientierung daran erleichtert den Teilnehmer*innen die spätere Antragstellung bei der Drittmitteleinwerbung in Deutschland für OCR-Projekte.

Ablauf

Die Teilnehmer*innen führen unter Anleitung selbständig die folgenden Arbeitsschritte durch:

  1. Bildvorbereitung,
  2. Regionensegmentierung,
  3. automatische Zeilensegmentierung,
  4. Erzeugung von ground truth und
  5. Texterkennung und Textausgabe.

Optimale Vorbereitung – Maximaler Gewinn

Der einwöchige Workshop unterstützt Sie ausdrücklich bei der praktischen Durchführung ihres konkreten Forschungsprojektes. Diese Unterstützung funktioniert am besten, wenn Sie

  1. Ihre eigenen Bilddigitalisate von max. 50 MB pro Bild,
  2. möglichst als unkomprimiertes Farb-TIFF (Truecolour, ie. RGB 8 Bit) mit einer Auflösung von mindestens 200 dpi mitbringen,
  3. der zu digitalisierende Text mindestens 200 Zeilen á 20 Zeichen umfaßt und
  4. Sie bei nicht in lateinischer Antiqua beziehungweise Fraktur gedruckten Texten bereits 50 Zeilen á 20 Zeichen manuell in eine Textdatei transkribiert haben.

Alternativ werden Ihnen Bilddigitalisate und Ground Truth zur Verfügung gestellt.

Technische Voraussetzungen

Es werden keinerlei Vorkenntnisse vorausgesetzt. Ein eigener Laptop mit mindestens 8 GB RAM und minimal 20 GB freiem Festplatten- beziehungsweise SSD-Speicher, einem Quad-Core-Prozessor sowie ein aktueller Browser werden benötigt. OCR4all läuft unter Windows, macOS und UNIX-Betriebssystemen. Über Details zur Installation der Software werden die Teilnehmer*innen vor Beginn der Veranstaltung informiert.

Der einwöchige Workshop wird in der zweiten Woche mit den identischen Inhalten wiederholt.

  • English
  • The Name
  • Background
  • Mission
  • Audience
  • Workshops
  • Lectures
  • Projects
  • Round Tables
  • Working Languages
  • Impressum
  • Kontakt

2022

  • Important dates
  • Application
  • Workshops
  • Experts
  • ConfTool
  • Scholarships etc.
  • Participation fees
  • Moodle
  • Scientific Committee

2021

  • ESU DH C&T 2021
  • Important dates 2021
  • ConfTool
  • Programme
  • Workshops
  • Experts
  • Application
  • Lectures
  • Scholarships
  • Participation fees
  • Moodle
  • Scientific Committee

2020

  • Important dates
  • Schedule
  • Workshops
  • Lectures (public)
  • Panel (public)
  • Experts
  • Lecturers
  • Application
  • Scholarships
  • Participation fees

2019

  • Schedule
  • Workshops
  • Lectures (public)
  • Projects (public)
  • Poster Session (public)
  • Panel (public)
  • Teasers (public)
  • Cultural programme
  • Experts
  • Lecturers
  • Scientific Committee
  • Important dates (new)
  • Application
  • Scholarships (updated)
  • Participation fees
  • Refund policy
  • T-Shirts
  • Child care
  • Birthday thoughts

2018

  • Schedule
  • Workshops
  • Lectures (public)
  • Projects (public)
  • Posters (public)
  • Panel discussion (public)
  • Teasers (public)
  • Cultural Programme
  • Experts
  • Lecturers
  • Scientific Committee
  • Important dates
  • Application
  • Scholarships
  • Fees
  • Refund policy
  • T-Shirt
  • The logo riddle
  • Child Care

2017

  • Schedule
  • Workshops
  • Lectures (public)
  • Projects (public)
  • Panel (public)
  • Teasers / Specials
  • Cultural Programme
  • Experts
  • Lecturers
  • Scientific Committee
  • Important dates
  • Application
  • Scholarships
  • Fees
  • Refund Policy
  • T-Shirt
  • Flyer
  • Child care

2016

  • Schedule
  • Workshops
  • Lectures (public)
  • Projects & Posters (public)
  • Panel
  • Teasers (public)
  • Slams
  • Experts
  • Lecturers
  • Scientific Committee
  • Important dates
  • Application
  • Scholarships
  • Fees
  • Refund policy
  • Flyer
  • Child Care

2015

  • Schedule
  • Workshops
  • Lectures
  • Projects
  • Posters
  • Panel
  • Teaser / Special sessions
  • Workshop Slams
  • Experts
  • Lecturers
  • Scientific Committee
  • Important dates
  • Application
  • Scholarships
  • Fees
  • Refund policy
  • Child Care
  • T-Shirt 2015
  • Flyer and Poster
  • Sponsorship
  • Questions

2014

  • Schedule
  • Workshops
  • Lectures
  • Projects
  • Panel
  • Experts
  • Lecturers
  • Scientific Committee
  • Important dates
  • Application
  • Scholarships
  • Fees
  • Child care
  • Flyer
  • Sponsorship

2013

  • Schedule
  • Workshops
  • Lectures
  • Projects & Posters
  • Panel
  • Experts
  • Lecturers
  • Project Presenters
  • Scientific Committee
  • Important dates
  • Application
  • Bursaries
  • Fees
  • Refund Policy
  • T-Shirt
  • Certificate
  • Sponsorship

2012

  • Home
  • Schedule
  • Workshops
  • Lectures
  • Project Presentations
  • Poster Slam & Session
  • Panel Discussions
  • Excursion
  • Lecturers
  • Certificate
  • Scientific Committee
  • Important Dates
  • Duration & Structure
  • Application
  • Registration Fees
  • Bursaries

2010

  • Schedule
  • Workshops
  • Instructors
  • Lectures
  • Round table
  • Important dates
  • Application
  • Fees
  • Bursaries

2009

  • Schedule
  • Workshops
  • Instructors
  • Lectures
  • Project presentations
  • Round tabel

Leipzig

  • Contact
  • Mailinglist
  • Host
  • Venue
  • Moodle
  • Accommodation (updated)
  • City Map
  • Arrival
  • Events
  • Weather

What the ESU means to me

ESU in the Media

ESU 2019 Experiences (DARIAH-EU)
ESU 2018 Experiences (CLARIN-D)
ESU 2017 (CLARIN-D Blog)
CLARIN-D at ESU 2015 (YouTube)
CLARIN-D ESU 2015 (YouTube)
Mephisto 97.6 10.07.13
Campus Online 10.08.2012
Mephisto 97.6 26.07.2010
infotvleipzig 26.07.2010
In India 03.09.2010

Reviews

INFOtheka: Review of ESU DH 2009
INFOtheka: Review of ESU DH 2012
Infoclio.ch: Review of ESU DH
2013

Publications

Multimodal Analysis of “well”

Users

  • Login

DAAD

 

CLARIN ERIC

 

Sächsische Akademie der Wissenschaften

 

Universität Leipzig

 

BMBF

 

Electronic Textual Cultures Lab at the University of Victoria & Digital Humanities Summer Institute

CLARIN-D

 

DARIAH-EU

 

Slovenian Language Technologies Society (SDJT)

 

Parthenos

International Centre/AAA

 

Computational Humanities

 

Oxygen XML Editor

 

Universitätsbibliothek