Suuret ja pienet maailmat

Kun Kolumbus lähti laivalla etsimään merireittiä itäiseen Intiaan, hänellä oli mielessään käsitys siitä että maailma olisi pienempi kuin mitä se oikeasti oli. McElreathin kirjassa Statistical Rethinking tätä käytetään esimerkkinä siihen, miten bayesialaisessa laskennassa on sekä pieniä maailmoja (malli) sekä isoja maailmoja (se mihin mallia sovelletaan).

Suurien kielimallien tapauksessa voidaan ajatella maailmoja toisin päin: kielimallit ovat valtavan laajoja, käytännössä kaikella maailman tekstuaalisella datalla koulutettuja ja niitä sovelletaan pieniin maailmoihin.

Älykkyyden tai tekoälyn näkökulmasta on tavallaan järkevää, että meillä on malleja, jotka pystyvät toimimaan lähes missä tehtävässä tahansa. Jos voidaan käyttää termiä perinteinen koneoppiminen, niin siinä malleja on ollut mahdollista esimerkiksi hienosäätää (fine-tune) vastamaan niitä tarpeita joita tehtävällä on. Esimerkiksi, kuvantunnistustehtävissä olevia malleja voidaan hienosäätää oppimaan jotain uutta joukkoa objekteja olemassa olevien painojen perusteella.

Suuret kielimallit ovat siinä mielessä hyödyllisiä, että niiden kanssa toimiessa voidaan toimia tietyllä tapaa ihmismäisesti. Sen sijaan, että tarvitsisimme tuhansia uusia esimerkkejä, joiden avulla malli koulutetaan uuteen tehtävään, suuret kielimallit oppivat ratkaisemaan tehtäviä muutamien ohjeiden perusteella. Tämä on hyödyllistä ja hyvin ihmismäistä. Tekoälyjärjestelmien arkkitehtuurin näkökulmasta tämä voi jopa olla edullista kun voidaan tukeutua verrattain helposti tekoälypalveluihin.

Mutta tarvitaanko kaikkeen kuitenkaan isoja malleja? Onko ihmismäinen älykkyys tarpeellista jotta saadaan järjestelmistä älykkäitä? Pitäisikö meillä olla vielä pienempiä maailmoja?

Ihmisten aivot ja älykkyys on luonnon mittakaavassa erityistä ja meillä on kyvykkyyksiä, joiden avulla pystymme tekemään kaikenlaista: rakentamaan taloja, luomaan yhteiskuntia, matkustamaan avaruuteen, rakentamaan lentokoneita sekäe tietenkin myös rakentamaan järjestelmiä, jotka imitoivat meidän omaa kyvykkyyttämme.

Jos me katsomme ympärillemme luontoon, näemme paljon sellaisia eliölajeja jotka eivät meidän silmissämme ole varsinaisesti älykkäitä mutta jotka kuitenkin pärjäävät luonnossa ja pystyvät omalla tavallaan toimimaan älykkäästi. Mietitään esimerkkinä vaikka lintuja: linnut pystyvät rakentamaan pesiä, kommunikoimaan toistensa kanssa sekä (lajista riippuen) jopa muuttamaan kauas toisaalle talven ajaksi. Onko linnuilla siis älyä vai luonnollinen kyvykkyys tehdä heille tyypillisiä asioita?

Vaikka lintuja ei erityisesti pidetä älykkäinä otuksina, heillä on kuitenkin paljon älykkäitä piirteitä. Papukaijat voivat oppia puhumaan ja jopa vähemmän älykkäinä pidetyt pulut voivat oppia tunnistamaan vaikkapa kirjoitusvirheitä yksittäisistä sanoista.

Samaan tapaan kuin tekoälyjärjestelmissä, myös luonnossa saadaan toiminnalle palautetta tai vastetta. Koneoppimisjärjestelmissä vasteena voidaan ajatella yksinkertaisesti sitä, että onko mallin tuottama ennuste kuin paljon väärässä tai oikeassa ja vaikkapa A*-algoritmeissa sitä, että ollaanko menty oikeaan suuntaan. Samaan tapaan luonnossa eläimet ja me ihmisetkin saadaan palautetta siitä mitä me tehdään. Jos lapsena teemme jotain väärin, vanhemmat oikaisevat väärinteosta ja luonnossa linnut saavat samaan tapaan palkinnon omasta tekemisestään.

Isojen ja pienien maailmojen analogiaan palatakseni, ajattelen niin että pienissä maailmoissa operointiin emme välttämättä tarvitse lainkaan isoja, geneerisiä tekoälyjä vaan pienempiä, tehtävän kannalta fiksuja malleja jotka operoivat siinä maailmassa jossa niitä tarvitaan.

Tarkastellaan pieniä maailmoja luoton myöntämisen näkökulmasta. Oletetaan, että sinut on pestattu pankkiin miettimään miten luottojen antamista voisi tehostaa. Aiemmin pankissa on myönnetty luottoja kelle vaan ja osan kanssa käynyt hyvin, osan huonosti. Sinun tehtäväsi on hyödyntää tekoälyä lainojen myöntämiseen liittyvään riskiarviointiin.

Sen sijaan, että käyttäisit kaikkea ison maailman dataa, tehtävään tarvitaan vain lainojen maksujen kontekstissa toimivaa mallia. Pystyt helpommin tekemään mallin oikeaksi, tarkastelemaan sen suorituskykyä ja perustelemaan viranomaisille ja asiakkaille miksi olet tehnyt päätöksen niinkuin olet tehnyt. Pienten maailmojen mallit eivät kuitenkaan ole aina välttämättä parempia. Kirjoituksen alussa mainitussa Statistical rethinking-kirjassa pienten maailman malleilta odotetaan logiikan verifiointia sekä oikeellisuuden tarkastelua tiettyjen oletuksien läsnäolessa. On myös huomioitava se, että jos maailmojen kokoa tarkastellaan puhtaasti bayesilaisen tilastotieteen näkökautta, pelkkä mallin soveltaminen oikeaan elämään tai siis dataan vie sen pois pienestä maailmasta taas isoon maailmaan.

Älykkäiden oloisten järjestelmien sekä tekoälyn käytössä on toimittava siinä kontekstissa ja ympäristössä, joka on kullekin tehtävälle ominainen. Teoreettinen tausta mahdollistaa ja osoittaa toki, että suuret tekoälyjärjestelmät pystyvät mihin vaan mutta operointi oikean kokoisessa maailmassa on tehokkaampaa ja turvallisempaa.