Tekoäly apuna koltansaamen ja pohjoissaamen digitaalisten sanakirjojen toimitustyössä

Oulun yliopiston Giellagas-instituutti julkaisee koltansaamen ja pohjoissaamen sanakirjat digitaalisina. Tekijät ovat hyödyntäneet työssä tekoälyä. Sanakirjojen kehitys ja niiden digitalisointi ovat osa vähemmistökielten kuvausta ja elvytystä. Digitalisoinnin ansiosta kieliä voidaan nykyaikaistaa ja käännettyjen sanojen määrää lisätä verrattuna painettuihin sanakirjoihin. Digitaalisessa muodossa olevaa sanakirjaa on helppo täydentää, laajentaa ja korjata sitä mukaa kuin tiedot kielen sanavaroista ja kirjakielen normeista täsmentyvät.

Esimerkiksi koltansaame on kehittyvä kirjakieli, jonka kirjallinen käyttö on viime vuosina laajentunut uusille alueille. Sanasto on merkittävästi kasvanut, ja sen uudistuminen on ollut erityisen nopeaa viimeisen vuosikymmenen aikana. Oulun yliopistossa on aloitettu tänä vuonna koltansaamen pääaineopetus. ”Koltansaamen digitaalisen sanakirjan merkitys on erittäin suuri. Näin ajantasaista, nykykieltä sisältävää sanakirjaa ei koltansaamessa ole lainkaan. Digitaalisen sanakirjan julkaiseminen on merkittävä edistysaskel myös opetuksen kannalta. Tärkeää on myös se, että kolttasaamelaiset itse ovat olleet mukana tekemässä tätä työtä”, Giellagas-instituutin johtaja Anni-Siiri Länsman toteaa.

Digitaalisten sanakirjojen toteutuksessa on käytetty pienten kielten sanakirjatyötä varten Helsingin yliopistossa kehitettyä Veʹrdd-työkalua. Työkalu hyödyntää tekoälyä, joka muun muassa taivuttaa sanoja automaattisesti eri muotoihin. Tekoäly säästää sanakirjatyöhön kuluvaa aikaa, sillä jokaisen sanan kaikkia taivutusmuotoja ei tarvitse kirjoittaa käsin. Käyttäjällä on myös mahdollisuus korjata tekoälyn tuottamia virheellisiä muotoja.

Sanakirjan koneluettavuus mahdollistaa sen, että korjaukset voidaan syöttää takaisin tekoälylle, jolloin sen käsitys kielen taivutusmuodoista tarkentuu. Samaa tekoälyä ja Ve’rddillä tuotettua sanastoa voidaan käyttää suoraan myös oikolukusovelluksissa ja kielenopetusohjelmissa. Digitaalisessa suomi–koltansaame-sanakirjassa suomenkielisten hakusanojen määrä on yli 16 000 ja koltankielisten vastineiden lähes 19 000.

Digitaalisessa pohjoissaame–suomi-sanakirjassa on runsaat 50 000 hakusanaa. Sen käsikirjoituksen on tehnyt emeritusprofessori Pekka Sammallahti aikaisempien sanakirjojensa (1989 ja 1993) pohjalta. Digitaaliset sanakirjat julkaistaan Tromssan yliopiston saamen kieliteknologian keskuksen Giellateknon ja Divvun-projektin alustalla.

suomi–koltansaame-sanakirja 
pohjoissaame–suomi-sanakirja

Lähde: Oulun yliopisto

Author: Tuula Pohjola