Sinä olet äänesi, vaikka se olisi synteettinen

🔊✨
Tämän sisällön voit myös kuunnella tekoälyäänen lukemana versiona.
Tekoälyääni on tuotettu kirjoittajan omasta äänestä.

Kun nykyään puhumme synteettisistä äänistä, ääniklooneista ja tekoälyn tuottamasta puheesta, keskustelu pyörii yleensä laadun ympärillä. Arvioimme, kuinka luonnollinen ääni on, miten inhimilliseltä se kuulostaa, kuinka vähän siinä on viivettä, kuinka hyvin se jäljittelee oikeaa puhetta.

Teknologiaa katsotaan helposti sen kautta, mikä on teknisesti parempaa, mutta ihmisen näkökulmasta parempi ei aina tarkoita aidompaa.

Ääni, joka oli alun perin jonkun toisen

Yksi puheteknologian koskettavimmista tarinoista on edesmenneen astrofyysikko Stephen Hawkingin robottiääni, maailman tunnetuin synteettinen ääni.

Hawkingin ääni ei valikoitunut hänelle satunnaisesti. Se perustui MIT:n tutkijan Dennis Klattin ääneen. Puhesynteesin pioneeri Klatt kehitti 1970- ja 80-luvuilla DECtalk-syntetisaattorin, joka mallinsi ihmisen ääntöväylää digitaalisesti poikkeuksellisen tarkasti oman aikansa mittapuulla.

DECtalkissa oli useita eri ääniä, kuten “Beautiful Betty” ja “Kit the Kid”, mutta oletusääni tunnettiin nimellä “Perfect Paul”. Tämä ääni perustui nimenomaan Dennis Klattin omaan ääneen, jota hän äänitti tuntikausia mallin pohjaksi.

Tarinan traaginen käänne on, että samalla kun Klatt antoi äänen tuhansille puhekyvyttömille ihmisille, hän itse sairastui kilpirauhassyöpään, joka vei hänen kykynsä puhua. Elämänsä viimeisinä vuosina hän kommunikoi vain käheästi kuiskaten, mutta hänen terve, vahva äänensä jäi elämään “Perfect Paul” -äänen ja erityisesti Stephen Hawkingin kautta.

Teknologia voi alkaa kantaa ihmistä mukanaan. Klattin laboratoriokeksinnöstä tuli väylä, jonka kautta toinen ihminen saattoi jatkaa olemistaan maailmassa kuultavana.

Ääni, josta tuli identiteetti ja ilmiö

Hawking sai ensimmäisen puhesyntetisaattorinsa vuonna 1985, ja vuosikymmenten kuluessa teknologian kehittyessä Intel ja muut yhtiöt tarjosivat hänelle toistuvasti uusia, luonnollisempia ja inhimillisempiä ääniä.

Mutta hän ei päivittänyt ääntään, vaikka oli itse brittiläinen ja “Perfect Paul” puhui amerikanenglannin aksentilla.

Moni voisi ajatella, että juuri tämä olisi ollut syy vaihtaa. Jos kerran tarjolla oli aidomman kuuloinen ääni, vieläpä lähempänä omaa aksenttia, miksei tehdä päivitystä?

Siksi, että ääni ei ollut Hawkingille enää pelkkä käyttöliittymä.

BBC:n haastattelussa vuonna 2014 hän totesi, että “Perfect Paul” -ääni oli tullut osaksi hänen identiteettiään, ja hän piti sen aksenttia ja robottimaista sointia tavaramerkkinään.

“Siitä on tullut minun ääneni.”

Tuo lause kertoo, että emme rakenna suhdettamme ääneen vain sen luonnollisuuden perusteella. Me rakennamme siihen muistoja, tunnistettavuutta, jatkuvuutta ja omistajuuden tunnetta. Ääni alkaa tarkoittaa meitä itseämme, vaikka se ei olisi biologisesti meidän tuottamamme.

Hawking kertoi jopa puhelaitteita tarvitsevien lasten toivoneen luonnollisen äänen sijaan nimenomaan “sitä ääntä, jolla Stephen Hawking puhuu”. Näin ollen tuo ääni ei ollut enää vain hänen oma kokemuksensa itsestään, vaan myös muiden kokemus hänestä.

Se oli hänen läsnäolonsa muoto, osa hänen julkista identiteettiään ja tapa olla tunnistettava.

Siinä vaiheessa kyse ei ollut enää vain yksittäisen ihmisen puheäänestä tai apuvälineestä. Hawkingin äänestä oli tullut ilmiö. Cambridgen yliopisto on kuvannut sitä yhdeksi maailman tunnistettavimmista äänistä, ja myöhemmin sitä kohdeltiin jo lähes symbolina, kun ESA lähetti hänen ääntään sisältäneen teoksen avaruuteen hänen muistokseen.

Tuo ääni oli lopulta osa sitä, miten koko maailma oppi tunnistamaan Stephen Hawkingin ja hänen ajatuksensa.

Samalla siitä tuli yksi niistä äänistä, joiden kautta suuri yleisö oppi, että puhetta voi syntetisoida ja että myös synteettinen ääni voi olla täysin oikea tapa elää arkea, ajatella, tehdä työtä ja olla läsnä maailmassa.

Äänen sijaan päivitettiin lopulta pelkkä laite

Stephen Hawkingin päätös olla vaihtamatta ääntään aiheutti myös teknisiä haasteita, sillä alkuperäinen 1980-luvun rauta alkoi hajota, ja varaosista oli pulaa. Vuonna 2014 Intelin insinöörit joutuivat käytännössä hakkeroimaan ja emuloimaan vanhentuneen laitteen toimintaa, jotta Hawkingin ääni säilyisi tismalleen samanlaisena uudessa tietokoneessa.

Sekin on paljastava yksityiskohta. Teknologiayhtiöt eivät yrittäneet vain antaa hänelle parempaa ääntä, vaan lopulta pyrkivät säilyttämään juuri sen vanhan. Sen, jonka joku insinööri olisi voinut kuitata epätäydelliseksi, vanhanaikaiseksi tai epäluonnolliseksi.

Käyttäjän kannalta tärkein ominaisuus ei ollut viimeisin äänimalli vaan jatkuvuus.

Puheteknologiassa merkitystä ei luo vain äänen laatu, vaan myös psykologinen omistajuus. Tunne siitä, että ääni edustaa minua, vaikka se olisi rakennettu kokonaan algoritmeilla, toisen ihmisen ääntä matkimalla tai vanhan laitteen logiikalla. Kun ääni kantaa ihmisen persoonaa, historiaa ja tunnistettavuutta, siitä voi tulla oma silloinkin, kun se on täysin synteettinen.

Tästä näkökulmasta katsottuna Hawkingin tarina tuntuu yhä vahvalta. Se muistuttaa, että ääni on identiteettiä, jatkuvuutta ja suhdetta maailmaan.

Siksi synteettisen äänen valtavirtaistuessa tärkein kysymys ei ole vain se, mikä kuulostaa kaikkein aidoimmalta. Vielä tärkeämpää voi olla kysyä, mikä tuntuu omalta, mikä säilyttää ihmisen tunnistettavuuden ja kenen ehdoilla tuo ääni määritellään.

Sinä olet äänesi, vaikka se olisi synteettinen

Ääni, joka oli alun perin jonkun toisen

Ääni, josta tuli identiteetti ja ilmiö

Äänen sijaan päivitettiin lopulta pelkkä laite

Kommentit

Vastaa Peruuta vastaus

More posts

Mies, joka yritti automatisoida luovuuden: Raymond Scott ja maailman ensimmäinen tekoälysäveltäjä

Tekoälyn liveääni vai sanelu – kumpaa kannattaa käyttää missäkin tilanteessa?

Miten reaaliaikainen tekoälytulkkaus toimii sote-arjessa käytännössä?

Ääni, joka ei koskaan vaikene: Reidar Wasenius kloonasi äänensä ja tutkii nyt syvempää inhimillisyyttä tekoälyn aikakaudella