Query in Text Corpora 2014
Przedmiotem kursu będzie kodowanie tekstów, kodowanie znaków, wyrażenia regularne, wyszukiwanie przy użyciu wyrażeń regularnych, wyszukiwanie w korpusach, przeszukiwanie zwykłego tekstu, wyszukiwanie w korpusach anotowanych przy użyciu języka zapytań (np. CQL) i przeszukiwanie dokumentów XML przy użyciu XQuery. Kurs będzie prowadzony w języku angielski skoncentrowany na niemieckich korpusach. Każdy może uczestniczyć w kursie.
Blok A (tydzień 1): Pierwszy blok kursu będzie poświęcony podstawowym zagadnieniom związanym z pracą z tekstami zdigitalizowanymi i budowie korpusów internetowych, jak np.: -kodowanie tekstu - najpopularniejsze standardy kodowania tekstu zostaną przedstawione; -wyrażenia regularne - pojęcie wyrażeń regularnych zostanie omówione; studenci będą mieli okazję odkryć ich użyteczność i nauczyć się formułować wyrażenia regularne odpowiadające ich zapytaniom; -anotacja - różne rodzaje anotacji (znakowanie, anotacja morfosyntaktyczna, analiza składniowa) i schematy anotacji zostaną przedstawione; ich użyteczność dla różnego rodzaju badań zostanie omówiona.
Blok B (tydzień 2): Drugi blog poświęcony zostanie zagadnieniom eksploracji korpusów językowych. Studenci będą mogli nauczyć się jak odszukiwać informacje w korpusach. W tej części kursu przedstawione zostaną różne typy metadanych (strukturalne, administracyjne, opisowe) i ich znaczenie dla poszczególnych pytań badawczych. Następnie omówione zostanie pojęcie języka zapytań i przedstawione zostaną różne typy języków zapytań. Studenci będą mieli okazję odnaleźć poszukiwane informacje w korpusach przy użyciu zapytań sformułowanych w wyspecjalizowanym języku zapytań.
Blok B jest oparty o blok A, ale uczestnictwo w jednym z nich jest niezależne od uczestnictwa w drugim.