Ääni, joka ei koskaan vaikene: Reidar Wasenius kloonasi äänensä ja tutkii nyt syvempää inhimillisyyttä tekoälyn aikakaudella

Kuuntele koko haastattelu Ääniäly-podcastissa:

🔊✨ Ääniäly-podcast Apple Podcastsissa

”Ne, jotka ovat kuulleet minun ääneni, ovat luultavasti tehneet sen tien päällä”, tekoälytutkija, Personal Brainer ja ääniartisti Reidar Wasenius naurahtaa, kun pyydän häntä esittelemään itsensä niille, jotka eivät häntä välttämättä nimestä tunnista.

Kaikki suomalaiset tuntevat nimittäin tuon äänen. Hänen omien sanojena mukaan se on se ”häiritsevä äijä”, joka ilmoittaa junan saapuvan Pasilaan tai pahoittelee puhelimessa, että tavoittelemanne henkilö puhuu toista puhelua. Wasenius on tehnyt puhelinverkkojen äänirooleja yli 30 vuotta ja toiminut VR:n junakuulutusten äänenä keväästä 2014 lähtien.

Tuolloin hänet valittiin tehtävään sekä kansallisessa yleisöäänestyksessä että VR:n sisäisessä äänestyksessä. Alkoi valtava urakka: Wasenius luki yli 3000 pientä tekstileikettä, yksittäisistä sanoista hätäkuulutuksiin, jotka tallennettiin valtavaan MP3-tietopankkiin.

Nyt asiat tehdään toisin. Waseniuksen ääntä on koulutettu tekoälymalleilla, eli hänen äänensä on käytännössä kloonattu.

”Se tarkoittaa sitä, että tietokone oppii matkimaan minua puhumaan täysin minun tavallani, kaikilla mittareilla mitattuna. Nyt ruvetaan kuulemaan yhä pysyvämmin minun ääneeni pohjautuvia, tekoälyllä generoituja kuulutuksia.”

Syy tekoälyyn siirtymiseen on inhimillinen: ihminen ei ole kone. Vireystila, kellonaika ja jopa ikääntyminen muuttavat ääntä. Biologiset muutokset ovat vääjäämättömiä, mutta tekoälyllä VR:n asiakaspalvelu voi varmistaa kuulutusten täydellisen tasalaatuisuuden vuodesta toiseen, ilman että äänensävy hypähtää kesken lauseen. Uudet kuulutukset, kuten poikkeusreitit ja laiturimuutokset, syntyvät nykyään pelkästään näpyttelemällä tekstiä tietokoneelle.

Yleisradion käytäviltä ääniartistien puolestapuhujaksi

Kaikki alkoi vuonna 1979. Runonlausuntaa harrastanut poika kirjoitti isoäitinsä kehotuksesta kirjoituskoneella kirjeen Yleisradioon. ”Nuori poika, ei vielä äänenmurroksessa, joutaisi radio-ohjelmiin”, kirjeessä luki. Yle vastasi, ja pian täysin kaksikielinen Wasenius teki jo rooleja kuunnelmissa ja kouluradiossa. Siitä käynnistyi vuosikymmenten ura freelancerina yli kuudella eri radio- ja tv-kanavalla.

Nykyään Wasenius ei ole vain ääni, vaan kokonaisen ammattikunnan puolestapuhuja. Kesällä 2024 hän perusti yhdessä muiden alan ammattilaisten kanssa Ääniartistien liiton. Tarve oli ilmeinen.

”Suomi on yhdistysten luvattu maa, mutta tässä oli iso aukko”, Wasenius selittää. Näyttelijäliitto, Muusikkojen liitto ja Journalistiliitto tekevät tärkeää työtä, mutta äänikirjojen lukijoiden, dubbaajien, junakuuluttajien ja mainosäänten erityishaasteet jäivät väliinputoajiksi.

Tekoälyn nopea esiinmarssi teki liiton perustamisesta elintärkeää. Nyt puolitoistavuotias liitto taistelee sen puolesta, että ääniartistit pysyvät relevantteina ja saavat työstään reilun korvauksen, kun heidän äänensä digitalisoidaan.

Tekoäly myllertää pakan – Äänenkäytön villi länsi

Tekoäly yllätti kaikki, jopa teknologia-alan asiantuntijat. Se on sekoittanut pakan täysin. Pienikin toimija voi nyt pelkällä läppärillä kloonata ääniä ja tuottaa tehosteita, joihin aiemmin vaadittiin kallis studio ja ammattilaisten tiimi.

Samalla ala tarjoaa uusia, mullistavia ansaintamalleja. Wasenius nostaa esimerkiksi sekä muusikoina että puhe- ja näyttelijätyön ääniartisteina tunnetuksi tulleet Nina Tapion ja Tuukka Haapaniemen, joiden tekoälykloonit ovat toimineet Bauer Median tekoälyradion juontajina. Vaikka oikeat ihmiset tekevät muita töitään, heidän äänensä päivystävät studiossa 24/7 ja generoivat heille lisensointituloja.

Kolikolla on kuitenkin kääntöpuolensa. Wasenius itse sai kokea äänen kloonauksen pimeän puolen, kun hänelle lähetettiin netistä löytynyt mainosvideo.

”Se oli shokki. Siinä mainostettiin seksipalvelua minun äänelläni. Siinä pelleiltiin puhelintiedotteellani, jossa sanotaan ’valitsemanne numero on juuri nyt varattu’. Se oli täysin luvatta tehty, ja sillä tienattiin rahaa.”

Koska Waseniuksen ääntä on internet ja puhelinverkot pullollaan, kloonaaminen oli helppoa. Tapaus alleviivaa juridiikan ja eettisten pelisääntöjen tärkeyttä. Monille ääniartisteille on nykyään elintärkeää rajata sopimuksissa eksplisiittisesti, mihin tekoälykloonia ei saa käyttää. Kieltolistat voivat sisältää kaikkea pornosta ja poliittisista kampanjoista lihan, alkoholin tai aseiden mainontaan.

Äänen anatomia ja laadun merkitys

Wasenius ei ole tekoälyn parissa eilisen teeren poika. Jo alle 2000-luvun ensimmäisen vuosikymmenen lopulla hän osallistui Helsingin yliopiston spin-off-yrityksen Bitlipsin projektiin, jossa hänen äänestään tehtiin tiettävästi maailman ensimmäinen kolmikielinen kielimalli. Tuolloin prosessi vaati kymmeniä tunteja studiossa istumista, foneemien hiomista ja valtavasti rahaa.

Nykypäivänä tilanne on toinen. ”Tällä hetkellä, jos ihminen lukee studiossa tekstiä 30 minuuttia omana itsenään, tekoäly pääsee jyvälle puhetavasta. Yli puolentoista tunnin materiaalia ei edes tarvita.”

Vaikka kloonaus on nopeutunut, laadun rakentaminen on monimutkaista. Ihmisäänen kloonauksessa on useita kerroksia:

Äänen väreily (pintataso): Pelkkä äänen sävyn kopiointi. Tässä vaiheessa tekoäly saattaa rytmittää ja tauottaa puheen englannin kielen mallien mukaan, jolloin suomi kuulostaa luonnottomalta.
Ääntämys (keskitaso): Vokaalien ja konsonanttien oikeaoppinen, suomenkielinen artikulointi (esim. kovat ja pehmeät konsonantit).
Koherenssi (syvätaso): Kuinka malli käsittelee pitkiä tekstikokonaisuuksia ymmärrettävästi ja rytmikkäästi.

Kehitys on ollut niin nopeaa, että tänä päivänä edes Waseniuksen läheisimmät ihmiset – tai mies itse – eivät aina erota tekoäly-Reidaria aidosta.

”Kyllä se minua silti joskus risoo”, hän myöntää ja kertoo vaativansa aina koekuuntelua ennen uusien teknologioiden hyväksymistä. Halpatuotannot ja huippulaatu tulevat kuitenkin elämään rinta rinnan. Brändeille laadukas ja oikein lisensoitu ääni on yhtä tärkeä graafinen ja strateginen valinta kuin yrityksen visuaalinen ilme tai fontti.

Ihmismieli, meemit ja digitaaliset kloonit

Nykyään Wasenius opiskelee ja tutkii tekoälyä Aalto-yliopistossa. Hän lähestyy teknologiaa syvällisen psykologisen linssin kautta. Hänen mukaansa ihmismieli rakentuu neljästä osa-alueesta:

Muistot (Sensorinen): Aistimukset, hajut, maut ja kuvat.
Tiedot (Semanttinen): Faktojen ymmärrys, kuten Ranskan pääkaupunki.
Taidot (Proseduraalinen): Tavat toimia ja liikkua ilman tietoista ajattelua.
Affektit (Tunteet ja asenteet): Nopeat tunnereaktiot asioihin ja ihmisiin.

Nämä elementit yhdessä luovat toistumia eli meemejä (ei pelkkiä internet-vitsejä, vaan ihmisen käyttäytymisen säännönmukaisuuksia).

”Meillä on toistumia, ja se tekee meistä sen keitä me olemme. Pukeudumme tietyllä tavalla, ristiimme sormet tietyllä tavalla. Kun tämä konsepti mallinnetaan tietokoneeseen, saamme memeettisen järjestelmän, joka on uskomattoman ihmismäinen”, Wasenius selittää.

Tämä visio vie kohti tulevaisuutta, jossa digitaaliset olennot ja kielimallit saavat oman, uniikin persoonallisuutensa ja äänensä. Wasenius näkee edessään kaksi kiehtovaa tulevaisuudenkuvaa. Ensimmäinen on henkilökohtaisten, väsymättömien AI-kollegoiden ja unelmakumppaneiden luominen täyttämään inhimillisiä tarpeita.

Toinen on paljon henkilökohtaisempi: digitaalinen Wasenius-klooni. Tietokoneelle syötetään kaikki hänen kirjoittamansa tekstit, radio-ohjelmat ja luottamukselliset keskustelut. Kamera ja mikrofoni tallentavat hänen eleensä ja ilmeensä. ”Ehkä elän vielä 30–40 vuotta. Tänä aikana digitaalinen olento oppii matkimaan minua niin tarkasti, että minun kanssani voisi jutella kuvapuhelussa maailman tappiin asti – vaikka olisin itse jo poissa. Joillekin se voi olla lohdullista.”

Inhimillisyyden ydin tekoälyn aikakaudella

Huolimatta vahvasta sukelluksestaan teknologiaan, Reidar Waseniuksen tärkein sanoma on syvästi inhimillinen. Yli 30 vuotta ”Personal Brainerina” eli henkilökohtaisena aivovalmentajana toiminut mies näkee tekoälyn asettavan ihmisille peilin.

Koneet tekevät rutiinityöt yhä paremmin, mikä nostaa ihmisyyden rimaa. Emme voi voittaa tekoälyä sen omassa pelissä.

”Meidän pitää kehittää nimenomaan niitä inhimillisiä kykyjä, jotka ovat meille ominaisia. Tunteet, tunnetaidot ja kyky ilmaista itseään puheella vakuuttavasti, miellyttävästi ja rakastavasti. Ei robottimaisesti, vaan tavalla, joka heijastaa sitä, keitä me oikeasti olemme.”

Paradoksaalisesti tekoälyn voittokulku pakottaa meidät siis olemaan yhä enemmän ja syvemmin ihmisiä.

Ääni, joka ei koskaan vaikene: Reidar Wasenius kloonasi äänensä ja tutkii nyt syvempää inhimillisyyttä tekoälyn aikakaudella

Yleisradion käytäviltä ääniartistien puolestapuhujaksi

Tekoäly myllertää pakan – Äänenkäytön villi länsi

Äänen anatomia ja laadun merkitys

Ihmismieli, meemit ja digitaaliset kloonit

Inhimillisyyden ydin tekoälyn aikakaudella

Kommentit

Vastaa Peruuta vastaus

More posts

Mies, joka yritti automatisoida luovuuden: Raymond Scott ja maailman ensimmäinen tekoälysäveltäjä

Tekoälyn liveääni vai sanelu – kumpaa kannattaa käyttää missäkin tilanteessa?

Miten reaaliaikainen tekoälytulkkaus toimii sote-arjessa käytännössä?

Ääni, joka ei koskaan vaikene: Reidar Wasenius kloonasi äänensä ja tutkii nyt syvempää inhimillisyyttä tekoälyn aikakaudella