Text Mining with Canonical Text Services - Using a Text Reference System for Citation Analysis, Text Alignment and more
Il Canonical Text Service è un servizio che genera passi testuali identificabili con citazioni espresse mediante URN. Il servizio consente di creare CTS URNs per qualunque passo in un documento.
I dati possono essere richiesti usando GET requests fornite in un URL. Ogni richiesta deve contenere un parametro che specifica la funzione CTS da usare. Parametri specifici - come lo URN - sono aggiunti come addizionali GET parameters.
Per esempio il CTS riportato di seguito fornisce il contesto testuale del capitolo 3 del libro della Genesi della Bibbia di Re Giacomo: http://cts.informatik.uni-leipzig.de/pbc/cts/?request=GetPassage&urn=urn:cts:pbc:bible.parallel.eng.kingjames:1.3
Maggiori informazioni sul CTS si possono ottenere qui.
Il workshop intende presentare il protocollo CTS a nuovi utenti e fornir loro gli strumenti per creare nuovi esempi di citazioni CTS basate su dati preparati in anticipo. Alla fine dei primi due giorni, ogni partecipante avrà un esempio CTS funzionante e disponibile online.
Una volta che gli esempi CTS sono settati e funzionanti, i partecipanti impareranno a condividere i dati testuali con altri utenti e a clonarli tra diversi esempi del sistema. Saranno anche introdotti diversi strumenti e metodi, compresi due strumenti per l’allineamento testuale, un ambiente per il CTS text mining e un workflow per la citation analysis.
Non sono richieste capacità di programmazione. Graphic management tools per lavorare con esempi CTS sono disponibili. Il lavoro di text mining e di citation analysis richiede una comprensione di base della linea di comando (UNIX). I partecipanti lavoreranno su virtual machines. Si richiede che i participanti abbiamo famigliarità con le linee guida di marcatura dei testi TEI/XML. Questa parte, infatti, non rientra nella didattica del corso.
I partecipanti possono portare i propri dati in modo da usarli durante il workshop. I dati devono essere codificati secondo la codifica UTF-8 e usare un generico "TEI/XML div-type notation" simile a questo esempio. Testi che non sono in formato TEI/XML non sono al momento supportati. I partecipanti devono inoltre assicurarsi che i propri dati non violino copyright e licenze.
I partecipanti avranno accesso a programmi e dati aperti che sono parte dell’infrastruttura CTS dell’Università di Lipsia, compresi documenti del Parallel Bible Corpus, del Deutsche Textarchiv, del TED Talk Transcripts e molti altri. Si invitano i partecipanti a usare questi dati anche dopo la fine del workshop.
Il workshop durerà una settimana.