Query in Text Corpora 2014
Der Kurs behandelt die Zeichenkodierung, die Aufbereitung digitaler Texte, die Suche in nicht-annotierten Texten mit regulären Ausdrücken sowie die Suche in linguistisch annotierten Korpora mit speziellen Korpusabfragesprache (wie z.B. CQP) und die strukturbezogene Suche in XML-Dokumente mit XPath, XSLT und XQuery. Die Kurssprache ist Englisch, die betrachteten Korpora sind aber in ihrer Mehrheit deutschsprachig. Es sind keine Vorkenntnisse nötig, um den Block A besuchen zu können. Block B baut auf Block A auf, kann aber auch unabhängig besucht werden, wenn die in A behandelten Inhalte anderweitig erworben wurden.
Block A (Woche 1): Der erste Block behandelt die grundlegenden Aspekte der Arbeit mit digitalen Texten und Webkorpora, wie:
- Textcodierung; die wichtigsten Standards der Textkodierung werden vorgestellt,
- reguläre Ausdrücken; das Konzept des regulären Ausdrucks wird eingeführt und die Studierenden erhalten die Chance, den Nutzen von regulären Ausdrücken in der Praxis selbst zu entdecken und zu lernen, wie reguläre Ausdrücke formuliert werden
- Auszeichnungen und Annotationen; verschiedene Arten von Annotation (Textstruktur, Wortarten, Morphosyntaktax) und verschiedenen Auszeichnungssystem, wie z.B. die TEI, werden vorgestellt und ihre Nutzbarkeit für verschiedene Forschungsfragen wird diskutiert.
Block A (Woche 2): Der zweite Block thematisiert die Exploration von Textkorpora mit Query-Sprachen. Die Kursteilnehmer/innen lernen, wie gewünschte linguistische Informationen basierend in einem Textkorpus gefunden werden können. Es werden verschiedene Arten von Metadaten präsentieren und es wird diskutiert, welch Rolle sie bei der Suche spielen. Darüber hinaus wird das Konzept von linguistischen Abfragesprache eingeführt werden und eine Vielzahl derartiger Sprachen wird vorgestellt.
Block B basiert auf Block A. Die beiden Block können aber auch unabhängig von einander besucht werden.