Digitaalihumanistinen näkökulma sääntöpohjaiseen konekäännökseen
Sääntöpohjainen konekäännös on varsin mielenkiintoinen sovellus luonollisen kielen prosessoinnin (NLP) ja digitaalihumanistiikan (DH) näkökulmasta, sillä se tyypillisesti kattaa sovelluksia ja sisältöjä useista sisällöistä ja työtavoista, ja siksi sen voi kätevästi sisällyttää moniin olemassaoleviin työkäytänteisiin ja samalla kerryttää lingvistisiä resursseja, kuten koneluettavia sanakirjoja ja kielioppeja muun tutkimuksen ohessa.
Tällä kurssilla opitaan tekemään yksinkertainen sääntöpohjainen konekäännin (perustuen Apertiumiin), joka pystyy vähintään kääntämään yhden lyhyen teksti. Kurssin aikana käsitellään koneluettavien sanakirjojen ja kielioppien kirjoittamista XML-pohjaisella formaatilla, Versionhalintajärjestelmän käyttöä ja miten voi tehokkaasti hyödyntää avoimen lähdekoodin yhteisöjä.
Suunniteltu aikataulu
Ensimmäinen viikko
- Johdatus konekäännökseen
- Järjestelmien asennus
- Työkalujen käytön perusteet
- Johdanto XML:ään
- Sanakirjat ja muoto-oppi
- Jäsennys
- Sanapohjainen käännös
Toinen viikko
- Lausekepohjainen jäsennys ja ns. chunkkaus (osittainen jäsennys)
- Sanajärjestysmuutokset ja muut kieliopilliset muutokset
- evaluointi ja laadunvalvonta
- Vertaileva kielioppi
- Järjestelmän liittäminen isompiin sanakirjoihin
- Muut konekäännösjärjestelmät (jos aikaa jää)