TV1 esitti eilen dokumentin Ennen rikosta, jossa kerrotaan siitä miten teknologian avulla voidaan ennakoida kenellä on kohonnut riski tehdä rikos tai joutua rikoksen uhriksi. Järjestelmän avulla voidaan poimia matemaattisiin menetelmiin perustuen ne henkilöt, joilla tämä riski on.
Tekoälyhypen keskellä monesta saattaa tuntua pelottavalta se, että jossain olisi jokin maaginen kone tai ohjelma joka päättelee meistä asioita. Tekoälyn eettinen pohdinta ei ole aina se kiinnostavin osa siihen liittyvässä uutisoinnissa, esimerkiksi.
Rikosten ennakointi tekoälyn avulla on ongelmallista, koska siinä on riskinä että ihmiset menettävät yksityisyydensuojansa tai käytössä olevien järjestelmien taustalla olevaa logiikkaa ei ymmärretä käytössä niin paljoa, että kukaan voisi ottaa käytöstä vastuuta – tai esittää järkeviä perusteita väärinkäytöksille.
Näen kuitenkin rikosten ehkäisyongelman kapean tekoälyn (narrow AI) ongelmana (ainakin alkuun): on tietty määrä muuttujia, joiden avulla yritetään mallintaa todennäköisyyttä sille että joku henkilö tekee rikoksen tai joutuu rikoksen uhriksi. Näen tällaiset ongelmat hyvin pitkälti tilastotieteellisen ajattelun kautta: on olemassa jonkinlainen määrä dataa rikoksista, niiden tekijöistä sekä uhreista. Ilmoitetusta ja ratkenneesta rikoksesta kuka sen on tehnyt ja missä se on tehty. Kun tiedetään kuka sen on tehnyt, niin voidaan käyttää tietona erilaisia parametreja joita saadaan ihmisestä: pituus, paino, sukupuoli, nimi, syntymäaika, ihonväri, silmien väri, tulot, aiemmat rikokset, koulutus, työtiedot, asiointi yhteiskunnan eri palveluissa, tietoja terveydestä. Sijaintitieto voi olla esimerkiksi osoitteen tai koordinaattien tarkkuudella. Vaikkapa näiden tietojen avulla voidaan rakentaa mallia, joka ennustaa todennäköisyyden joutua rikoksen uhriksi. Näille tiedoille voidaan tehdä siis tilastollista analyysiä ja tarkastella mitkä muuttujat ovat oleellisia.
Isojen datamäärien aikakaudella kiusaus syöttää kaikki tekijästä saadut muuttujat malliin voi olla hyvin suuri. Jos rikoksia ennakoivaan malliin kuitenkin syötetään kaikki mahdolliset taustamuuttujat, niin toimiiko se tarkoituksenmukaisesti? Jos malli alkaa oppimaan, että kaikki sinisilmäiset, 176cm pitkät ja noin 74kg painavat miehet ovat riskiryhmää rikoksille? Entäs jos se alkaa luokittelemaan ihmisiä sellaisten piirteiden avulla, jotka eivät liity rikokseen mitenkään?
Jos tekoälyä hyödynnetään ihmisten luokitteluun, niin täysin automaattiseen, kaikista mahdollisista taustamuuttujista rakennettujen mallien käyttö ei voi olla hyväksyttävää.
Mielestäni keskustelun tekoälystä sekä algoritmeista pitäisi pyöriä juuri näiden ratkaisujen ympärillä. Kun rakennetaan malleja, joissa käsitellään ihmisiin liittyviä ominaisuuksia ja näitä automatisoidaan, niin aina pitäisi täyttyä ainakin seuraavat vaatimukset:
- Dataa tulisi analysoida ihmisen toimesta ennen kuin sitä syötetään automaattisille järjestelmille. Asiantuntevan data-analyysin tarkoituksena on ymmärtää se, miltä data näyttää ja onko siellä jotain ihmeellisyyksiä jotka voisivat aiheuttaa mallille ihmeellisyyksiä.
- Datan, jota mallille annetaan tulee olla fiksua. Muuttujat, joilla ei ole mitään merkitystä asian kannalta pitää unohtaa. Lainsäädännön kannalta keskeisenä tässä voisi pitää GDPR:n minimointiperiaatetta eli että dataa käytetään vain niin vähän kuin mahdollista. Käytännössä tämä tulisi tarkoittamaan mahdollisimman vähää määrää muuttujia.
- Järjestelmien pitää toimia vastuullisesti. Ei välttämättä pystytä perustelemaan miksi jokin neuroverkko päätyi rikoksen ennakoinnissa, mutta on pystyttävä aina perustelemaan ja kertomaan mitä dataa mallille on annettu ja miksi. Lisäksi mielestäni pitäisi pystyä kertomaan edes jollakin tarkkuudella minkälaisesta mallista on ollut kyse (neuroverkko, Random forest jne) koska se olisi omiaan hälventämään tekoälyyn liittyviä pelkoja.