Tekijänoikeushaasteet tekoälyn aikakaudella
Kirjoittajat
Olli Pitkänen
Lakiasiainjohtaja, dos., TkT, OTK
Tohtori Olli Pitkänen on kokenut IT-oikeuden asiantuntija. Hän on koko uransa työskennellyt tietotekniikkaan ja dataan liittyvien oikeudellisten kysymysten parissa. Erityisesti tietosuoja, tekijänoikeus ja muut aineettomat oikeudet (IPR) sekä sopimukset ohjelmistoihin, dataan ja tietoteknisiin järjestelmiin liittyen ovat hänen erikoisalaansa. Olli on koordinoinut Sitran Reilun datatalouden sääntökirjamallin kehitystyötä ja osallistunut sen soveltamiseenmonissa asiakasprojekteissa.
Sami Jokela
Tekninen johtaja
Sami Jokela on kokenut johtaja, jolla on yli 20 vuoden kokemus datasta, teknologiasta ja strategiasta, muun muassa Nokian palveluksessa, startup-yritysten perustajana ja Accenturen teknologia- ja informaatiotutkimuskäytäntöjen johtajana.
Waltter Roslin
Asianajaja
Waltter on lakimies, joka keskittyy tietojen jakamiseen, hallinnointiin, yksityisyyteen ja teknologiaan liittyviin kysymyksiin. Hän on myös väitöskirjatutkija Helsingin yliopistossa, jossa hänen tutkimuksensa keskittyy suomalaiseen lääkekorvausjärjestelmään.
OSA I - Voiko tekijänoikeuden haltijan yksinoikeus valmistaa kopioita estää tekoälyn kehittäjiä käyttämästä tekijänoikeudella suojattuja teoksia harjoitusdatassa?
Johdanto
Tekoäly asettaa uusia haasteita monilla oikeudellisilla aloilla. Yksi näistä aloista on tekijänoikeusjärjestelmä, joka on kehitetty aivan toisenlaista maailmaa ja aikakautta varten. Tekoälyjärjestelmiä kehittävät tai soveltavat yritykset ja muut toimijat kohtaavat vaikeuksia yrittäessään noudattaa tekijänoikeuslakia. Niitä on erityisesti kolmella alueella:
- Voiko tekijänoikeuden haltijan yksinoikeus valmistaa kopioita estää tekoälyn kehittäjiä käyttämästä tekijänoikeudella suojattuja teoksia harjoitusdatassa,
- Onko generatiivisen tekoälyjärjestelmän tuotos tekijänoikeudellisesti suojattavissa ja kuka on tekijä, jos tekoälyä käytetään aloilla, joilla on perinteisesti vaadittu ihmisen luovuutta, ja
- Ovatko tekoälymallit tekijänoikeudellisesti suojattavissa?
Tässä kolmiosaisen kirjoituksen ensimmäisessä osassa analysoimme tekijänoikeuksien haltijoiden oikeutta estää tekoälyn kehittäjiä käyttämästä tekijänoikeudella suojattuja teoksia harjoitusdatassa erityisesti EU:n lainsäädännön näkökulmasta.
Yksinoikeus tekoälyn kouluttamisen estämiseksi
Luovat teokset on suojattu tekijänoikeudella. Sitä säätelevät kansalliset lait, EU:n direktiivit ja kansainväliset sopimukset. Kaikki omaperäinen ja ilmaistu on suojattu tekijänoikeudella. Teoksen ei tarvitse olla rekisteröity tai tekijänoikeusmerkintä (esim. ©-merkintä) eikä sen tarvitse olla taiteellinen. Alkuperäisen kohteen on oltava tekijän henkinen luomus, ja tekijänoikeudet koskevat vain niitä osia, jotka ilmentävät tällaista luomusta. Tekijän on täytynyt tehdä luovia valintoja teosta tehdessään.1
Esimerkiksi romaanin kaltaisen pitkän tekstin kirjoittaminen sisältää yleensä luovia valintoja, kun kirjoittaja valitsee, mitä sanoja käyttää ja missä järjestyksessä. Toisaalta yksikään yksittäinen sana kyseisestä teoksesta ei ole tekijänoikeudellisesti suojattavissa. Näin ollen laajemmat tekstit ja pidemmätkin otteet ovat usein niin omaperäisiä, että ne ovat tekijänoikeudellisesti suojattuja, mutta yksittäinen sana tai muutama sana tekstistä ei ole.
Mitä tämä tarkoittaa tekoälyn kannalta? Koneellisessa oppimisessa tilastollisia malleja koulutetaan käyttämällä suuria määriä dataa, esimerkiksi tekstiä tai kuvia. Mallissa on sitten tietoa eri sanojen tai kuvan elementtien yhteenkuuluvuuden todennäköisyyksistä. Tarkemmin sanottuna erityisesti suurten kielimallien (LLM) osalta alkuperäinen koulutusteksti korvataan merkkeillä (kunkin sanan yksilöllinen numeerinen esitys), minkä jälkeen malli koulutetaan ennustamaan todennäköisin seuraava merkki. Mallia käytettäessä annetaan alkukontekstiksi kehotusteksti, jota sitten käytetään samalla tavalla ennustamaan seuraava merkkijakso. Lopuksi nämä merkit muunnetaan sanoiksi ja lauseiksi. Tällaisen mallin avulla esimerkiksi generatiivinen tekoälyjärjestelmä voi tuottaa tekstejä tai kuvia, jotka muistuttavat ihmisen luomia tekstejä tai kuvia.
Tekijänoikeuden kannalta ensimmäinen kysymys on, tapahtuuko prosessissa mitään tekijänoikeuden kannalta merkityksellistä. Pelkkä tekstin lukeminen tai kuvien katseleminen ei loukkaa tekijänoikeuksia. Myöskään yksittäisten sanojen tai niiden merkkien kopiointi ei loukkaa tekijänoikeutta, koska kuten edellä todettiin, yksittäiset sanat eivät ole tekijänoikeudellisesti suojattuja. Suurempien tekstikokonaisuuksien tai kokonaisen kuvan kopioiminen voi rikkoa tekijänoikeuksia. Mallin kouluttaminen voi siis loukata tekijänoikeuksia tai olla loukkaamatta, riippuen koulutusalgoritmista: kopioidaanko koulutuksessa tekijän luovia valintoja vai analysoidaanko yksittäisten sanojen välistä etäisyyttä. Tyypillinen, hieman yksinkertaistettu koneoppimisprosessi koostuu tekstin lukemisesta, mahdollisten epäolennaisten merkkien poistamisesta ja tuloksen muuntamisesta merkkisarjaksi. Tämän jälkeen tulokset tallennetaan tyypillisesti merkkivektoreiksi useita kertoja toistettavaa oppimisprosessia varten. Vaihtoehtoisesti materiaali tallennetaan ensin sellaisenaan ja muunnetaan sitten lennossa oppimisen aikana, mutta tämä on paljon tehottomampi lähestymistapa kuin edellinen. On todennäköistä, että merkkivektorit sisältävät myös alkuperäisen tekijän tekemien luovien valintojen tulokset. Algoritmista riippuen on siis edelleen mahdollista, että koneoppimisprosessi kopioi alkuperäisiä teoksia ja on siten tekijänoikeuden kannalta merkityksellinen.
Tätä kirjoitettaessa The New York Times on juuri haastanut OpenAI:n ja Microsoftin oikeuteen tekijänoikeusrikkomuksesta. Esimerkkinä siitä, miten tekoälyjärjestelmät käyttävät The Timesin aineistoa, mediatalo väitti, että ChatGPT toisti lähes sanatarkasti tuloksia Wirecutterista, The Timesin tuotearvostelusivustosta.2 OpenAI puolestaan kiistää tämän. Yhtiö sanoo, että heillä on käytössä toimenpiteitä, joilla rajoitetaan tahatonta muistamista ja estetään mallien tulosteiden toistaminen.3 Emme vielä tiedä, miten kiista päättyy, mutta jos The Times on oikeassa, OpenAI:n ChatGPT rikkoo todennäköisesti tekijänoikeuksia. Olisi vaikea ymmärtää, miten ohjelmiston tuotos sisältää ”lähes sanatarkat” kopiot harjoitusdatasta, jos niitä ei ensin kopioida malliin. Toisaalta, jos OpenAI on oikeassa, on paljon vaikeampi sanoa, tapahtuuko prosessissa mitään tekijänoikeuden kannalta merkityksellistä.
Poikkeukset koulutuksen sallimiseen
Toinen kysymys on, että jos mallin kouluttaminen on tekijänoikeudellisesti relevanttia, onko tekijänoikeuslaissa poikkeus tai rajoitus, joka sallisi kouluttamisen?
Tekijänoikeuslain tekijöille antamia vahvoja yksinoikeuksia, kuten oikeutta kopioida, muuttaa, myydä ja esittää teosta, on pyritty tasapainottamaan poikkeuksilla ja rajoituksilla. Ne vaihtelevat maittain. Usein ne luetellaan tekijänoikeussäännöissä, mutta esimerkiksi Yhdysvalloissa ne sisältyvät oikeudenmukaiseen käyttöön (fair use doctrine), joka on tekijänoikeuden avoin rajoitus. Tyypillisesti poikkeuksia ovat kirjastojen, oppilaitosten, museoiden tai arkistojen suorittama kopiointi ja yleisradio-organisaatioiden tekemät lyhytaikaiset tallenteet, kuvitus opetus- tai tutkimustarkoituksiin, vammaisten hyväksi, ajankohtaisten tapahtumien saattamiseksi yleisön saataville sekä siteerausta tai karikatyyrihahmojen tekemistä varten. Erityisesti monissa maissa on laillista valmistaa kopioita tekijänoikeudella suojatuista teoksista yksityiseen käyttöön. Äskettäin DSM-direktiivin 4 artiklassa4EU on edellyttänyt, että jäsenvaltioiden on säädettävä tekijänoikeutta koskevasta poikkeuksesta tai rajoituksesta, joka koskee laillisesti saatavilla olevien teosten jäljentämistä ja poimimista tekstinlouhintaa ja tiedonlouhintaa varten, elleivät teosten oikeudenhaltijat ole nimenomaisesti varanneet teosten käyttöä asianmukaisella tavalla. Tekstin- ja tiedonlouhintaa tutkimusorganisaatioissa ja kulttuuriperintölaitoksissa ei voida rajoittaa tällaisella varauksella (3 artikla).
On huomattava, että tekijänoikeuden haltijan yksinoikeus on pääsääntö, ja poikkeuksia ja rajoituksia olisi tulkittava suppeasti. Sen vuoksi tekstin ja tietojen louhintaa koskevaa poikkeusta tai rajoitusta ei pitäisi tulkita laajemmin kuin miten se on nimenomaisesti ilmaistu direktiivissä. Mielenkiintoinen kysymys on, sisältyykö tekstin ja tiedon louhintaan tässä yhteydessä myös koneoppimisen koulutusprosesseja. Direktiivin 2 artiklassa määritellään, että ”tekstin ja tietojen louhinnalla” tarkoitetaan mitä tahansa automatisoitua analyysitekniikkaa, jonka tarkoituksena on analysoida digitaalisessa muodossa olevaa tekstiä ja dataa sellaisten tietojen tuottamiseksi, jotka sisältävät muun muassa kuvioita, suuntauksia ja korrelaatioita. Näyttää siltä, että useimmat asiantuntijat ovat yhtä mieltä siitä, että tämä määritelmä kattaa myös koneoppimisen. Tätä kirjoitettaessa meillä ei vielä ole tekoälylain lopullista sanamuotoa, mutta tämänhetkisten luonnosten perusteella näyttää siltä, että tekoälylakiin sisällytetään selvennys siitä, että DSM-direktiivin mukaista tiedonlouhintaa koskevaa poikkeusta sovelletaan tekoälyn koulutukseen. Vaikka emme voikaan olla varmoja ennen kuin Euroopan yhteisöjen tuomioistuin ottaa asiaan kantaa, oletamme, että tekijänoikeudella suojattujen teosten käyttäminen tekoälyn kouluttamiseen on sallittua DSM-direktiivin 3. ja 4. artiklan mukaisesti.
Tästä näkökulmasta katsottuna mallin kouluttaminen tekijänoikeudella suojattuja teoksia sisältävillä tiedoilla olisi laillista, elleivät oikeudenhaltijat ole nimenomaisesti varanneet teosten käyttöä. Tämä ei kuitenkaan tee lailliseksi kehittää generatiivista tekoälyjärjestelmää, joka tuottaa kopioita tekijänoikeudella suojatuista teoksista. Luvattomien kopioiden tekeminen ei olisi laillista vain väittämällä, että kopiokone sisältää tekoälyohjelmiston!
Päätelmät
Tämän ensimmäisen osan päätteeksi voidaan todeta, että algoritmista riippuen koneoppimisprosessi voi olla merkityksellinen tekijänoikeuden kannalta. Jos koulutuksessa kopioidaan tekijänoikeudella suojatun teoksen alkuperäisen tekijän tekemiä luovia valintoja koulutustietoihin, se voi loukata tekijän yksinoikeuksia. Toisaalta, jos koneoppimisprosessia voidaan pitää tiedonlouhintana, se voi kuulua DSM-direktiivissä määritellyn rajoituksen tai poikkeuksen piiriin ja siten olla laillista EU:ssa. Jos generatiivisen tekoälyjärjestelmän tuotos kuitenkin sisältää kopioita harjoitusaineistoon sisältyvistä teoksista, sitä ei voida perustella kyseisellä rajoituksella tai poikkeuksella.
Seuraavissa osissa keskustelemme ensin tekoälyn tuottaman sisällön tekijyydestä ja täydennämme tämän kolmiosaisen kirjoituksen ajatuksilla tekoälymallien tekijänoikeuksista.
1001 Lakesin asiantuntijat keskustelevat mielellään näistä aiheista kanssasi, jos sinua askarruttaa tekoäly ja tekijänoikeus tai se, miten kehittää ja käyttää tekoälyä tekijänoikeuslain mukaisesti.