Sanateknologiaa

Teknologia on arkipäivää. Emme kiinnitä sen olemassaoloon juurikaan huomiota, jos kyseessä ei ole kuljettajattomat autot tai 3D-tulostetut elimet. Pian emme kiinnitä huomiota niihinkään.

Emme mieti algoritmeja päivittäisessä elämässämme, vaikka algoritmit määrittävät, mitä uutisia luemme, mitä mainoksia näemme ja mitä hakutuloksia Google meille tarjoilee. Emme välttämättä edes ymmärrä algoritmeja.

Ja vaikka meitä kutsutaan diginatiiveiksi, ymmärrämme digiä varsin vähän.

Algoritmeja löytyy myös arkisen kielenkäyttömme takaa, kieliteknologiasta.

Kieliteknologian historian lähtökohtana pidetään konekääntämistä. Google-kääntäjän räpiköiviä suomi-englanti-käännöksiä katsoessa ei uskoisi, että kielten konekääntämistä on kehitetty 40-luvulta asti. Silloin ajateltiin, että ihmiskieli on vain monimutkainen koodikieli.

Kieliteknologia on laitteita ja sovelluksia, jotka analysoivat, muokkaavat sekä tuottavat tekstiä ja puhetta. Tietokonelingvistiikka on kielitiedettä ja tietojenkäsittelytiedettä yhdistelevä teoreettinen pohja, jota kieliteknologia soveltaa.

Aivan ensimmäiset digitaaliset sanakirjat pystyivät kääntämään vain yhden sanan kerrallaan. Kielet olivat kaksinapaisen maailmanjärjestyksen hengen mukaisesti englanti ja venäjä.

Aluksi kieliteknologiaan suhtauduttiin suurella innostuksella, mikä näin jälkeenpäin tuntuu hassulta huomioon ottaen alkukantaiset koodikielet ja koneet sekä rajoittuneen varastotilan. Yhden lauseen kääntäminen kesti parhaillakin koneilla 7 minuuttia.

60-luvulla konekäännöstutkimuksen rahoitus tyrehtyi Yhdysvalloissa, koska sitä pidettiin lyhytnäköisenä ja toivottomana. Mielenkiinto kääntyi teknologiaan, joka pystyisi vastaamaan ihmisten kysymyksiin. Yritykset fantasioivat kieli pitkällä koneista, jotka hoitaisivat yksinkertaisen asiakaspalvelun ja säästäisivät palkkakustannuksissa.

80-luvulla palattiin konekääntämisen tutkimiseen. 90-luvulla puheentunnistusta yhdistettiin kielen ymmärtämiseen. Tänä päivänä visiot puhetta ymmärtävistä asiakaspalveluroboteista ovat toteutuneet Sirin kaltaisissa virtuaaliassistenteissa.

Kiinnostus venäjän kieleen on laskenut tietokonelingvistiikan parissa siinä missä kiinnostus mandariinikiinaa ja arabiaa kohtaan on noussut. Suomi on pieni kieli ja suomalaiset puhuvat verrattain hyvin englantia, joten suomen konekäännöksen kehittämiselle ei ole samanlaista tarvetta kuin suurempien maailmankielien. Vain tuplasti puhutumpaa ruotsia on helpompi kääntää englanniksi, sillä kielet ovat huomattavasti lähempänä toisiaan. Huolimatta siitä, että Google-kääntäjä on meille tunnetuin kääntäjäkone, on kehittyneempiäkin, maksullisia käännösohjelmia olemassa.

Jo nyt on teknologiaa, joka helpottaa kääntäjien työtä, mutta kääntävätkö jonain päivänä koneet tv-sarjojen tekstitykset ja romaanit? Vaikka teknologia kehittyisi, voiko se koskaan tunnistaa kielestä kulttuurisia eroja ja vivahteita? Vai lisääntyvätkö suorat käännökset ja anglismit, tehdä kavereita ja kirjoittaa alas?

Verkossa käytävät keskustelut loivat kirjoitetun puhekielen. Nyt käymme leijonanosan keskusteluistamme verkossa. Vaikka kotimaisten kielten keskus kuinka yrittää, verkon uussanat eivät taivu näppäimistöllämme meitsieksi ja risuaidaksi.

Konekäännöksien lisäksi kieliteknologialle on tyypillistä kielen korjaaminen. Oikeinkirjoituksen tarkistus tekee virheettömien esseiden ja työhakemusten kirjoittamisesta vaivattomampaa. Kirjoitusvirheiden suhteen ei tarvitse olla jämäkkä, kun tietää Wordin lisäävän sinistä tai vaaleanpunaista siksakia lipsahdusten alle.

Ennakoiva tekstinsyöttö auttaa valinnoissamme tekstiviestejä kirjoittaessamme ja hakiessamme sisältöä esimerkiksi Googlesta ja YouTubesta. Sanoja ei tarvitse kirjoittaa loppuun asti, kun meille jo ehdotetaan mitä olimme ajattelemassa. Onko mahdollista, että ennakoiva tekstinsyöttö vaikuttaa hakukomentoihimme, ja lopulta haemme kaikki samoja sisältöjä?

Kieliteknologiaa tarvitaan sekä eri äidinkieltä puhuvien ihmisten väliseen viestintään sekä konekäännösten tapauksessa että ihmisten ja koneiden väliseen kommunikaatioon. Koneet eivät ymmärrä ihmiskieliä, ja konekielet ovat vaikeita opetella.

Tulevaisuudessa yksi kiinnostavimpia kieliteknologian sovelluksia on tekoälytutkimus. Tekoäly itsessään on kieliteknologiaa suurempi ja monimutkaisempi tutkimuksenala, mutta kieliteknologia on olennainen osa sitä.

Maaliskuussa Microsoft joutui sulkemaan tekoälyprojektinsa nimeltä Tay. Oltuaan alle 24 tuntia Twitterissä, ihmiskontaktia varten kehitetty Tay oli muuttunut ”niin metsä vastaa kuin sinne huudetaan” -tyyppisestä robotti-papukaijasta aggressiiviseksi sovinistiksi ja rasistiksi, joka kielsi holokaustin ja toivoi feministien kuolevan helvetin liekeissä.

Microsoft kertoi Tayn olevan paitsi tekninen, myös kulttuurinen ja sosiaalinen koe. Tay oli ikään kuin peili, joka oppi lukemalla muiden ihmisten twiittejä, eikä sen peilikuva Internetistä ja ihmiskunnasta ollut kovin mairitteleva.

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *