Query in Text Corpora 2014
Ce cour va couvrir le codage des textes, le codage des caractères, les expressions rationnelles (régulières), les recherches par expressions rationnelles, la recherche dans les corpus non-annotés, la recherche dans le texte brut, la recherche dans les corpus annotés utilisant un langage de requête (par example le CQL) et la recherche dans les documents XML en utilisant le XQuery. Le cour va être dispersé en anglais mais il va se focaliser sur les corpus allemands. La participation est possible sans conditions préalables.
Bloc A (semaine 1): Le premier bloc du cour va couvrir les questions relatives au travail avec les textes numériques et à la construction des corpus du Web, telles que:
- le codage des textes; les standards les plus populaires de codage seront présentés,
- les expressions rationnelles; la notion d'expression rationnelle sera introduite; les étudiants auront la possibilité de découvrir l'utilité des expressions rationnelles, et apprendre à formuler les expressions rationnelles correspondants à leur requêtes.
- l'annotation; les divers types d'annotation (le balisage, l'étiquetage morpho-syntaxique, l'analyse arborescente) et les schémas d'annotation seront présentés et leur utilité pour les recherches différentes sera discutée.
Block B (semaine 2): Le deuxième bloc va couvrir les questions relatives à l'exploitation des corpus de langue. Les étudiants apprendront à retrouver l'information recherchée à la base des données contenues dans les corpus. Dans cette partie du cour la notion de métadonnées (structurelles, analytiques, descriptives) sera introduite et son importance pour des différentes questions de recherche sera discutée. De plus, la notion de langage de requêtes sera introduite et des divers types de langages de requêtes seront présentés. Les étudiants auront la possibilité de retrouver l'information recherchée dans les corpus en utilisant les requêtes formulées dans un langage de requêtes spécialisé.
Le bloc B est basé sur le bloc A, mais l'inscription à chacun des deux blocs se fait de manière indépendante.