Podcastin avausjakso: Tehdäänkö ääniälystä vähän numeroa?

Ääniäly-podcastin kirjoittaja on tehnyt jakson, jossa kaikki juontajan puhe on synteettistä ja mallinnettu hänen omasta äänestään. Se näyttää, miten tekoälyn äänitila voi tuntua arjessa luontevalta ja jopa mukavalta.

Käsikirjoitus

Tässä jaksossa kaikki juontajan puhe on toteutettu synteettisellä puheäänellä, joka on mallinnettu kirjoittajan omasta äänestä. [Myös juuri tämä puhe.]

”Hei ääniäly, tehtäisikö susta vähän numeroa?”

Hyvä kun kysyit tätä, tehdään vaan!

[Ja myös tämä puhe on synteettisellä äänellä toteutettu.]

Mutta siis ääniälyn käyttö, se tapahtuu ehkä hieman vahingossa. Sä oot keittiössä tai autossa, kuulokkeet päässä lenkillä, tai sitten etäpäivä pyykkikoneella.

“No joo, ei ois eka kerta kun päässä on aina monta pientä asiaa. Ja tosi usein, kun mä mietin, että tätä ja tätä ja tätäkin voisi varmaan kysyä tekoälyltä, niin ei jaksaisi sitä kaivaa.”

Niinpä.

Kirjoittaminen tuntuu vaivalloiselta, kädet on tiskiaineessa, pakkasella ei viitsi sormikkaita riisua. Joten sä päätätkin kokeilla tekoälyn äänitilaa, josta sä oot ehkä kuullut jonkun höpöttävän Linkkarissa.

Ihan nopeasti vaan, ei tehdä tästä numeroa.

Sanot varovasti, niin kuin luolaan huhuillen:

“Hei, voitko auttaa?”

Vastauksessa kestää ehkä pari sekuntia, mutta kun se tulee, sehän ei kuulostakaan enää robotilta, niinkuin ehkä joskus leffoissa. Ei toki täydelliseltä ihmiseltäkään, mutta eihän sen varmaan tarvitsekaan.

Silti sillä on rytmiä, ja nuotti kulkee luontevasti. Pieni tauko ja intonaatio, ne on juuri oikeassa kohdassa.

Ymmärtäväinenkin hän on (sanoitko ”hän”?), ja tuntuu kuin se, tai hän, oikeasti pysyisi mukana. Ja hei, sillä on jo suomalainen aksenttikin!

“Okei, mitähän se tekee, ja mihin tää äänitys menee? Pitäisikö mun odottaa kotiin asti, ettei vastaantulijat ihmettele? Jalat maassa. Mä en jaa yksityisiä asioitani, enkä pyydä mitään mikä voi maksaa jotain.”

Mutta samalla se on yllättävän kivaa.

Sä huomaat, että puhuminen on helpompaa kuin arvasitkaan. Sä voit korjata kesken lauseen ja nauraa omalle epäselvälle sanajärjestyksellesi. Se kysyy tarkennusta, eikä se hermostu sulle, ja puhuu sulle kohteliaasti.

Ensimmäinen oikea hyöty voi olla tosi arkinen:

  • se muotoilee viestin
  • kääntää pätkän ranskan kielestä ja
  • kertoo kuinka se tilaus lausutaan kahvilassa: “Bonjour! Je voudrais un croissant, s’il vous plaît.”
  • se muistuttaa sun päivän tehtävistä kun olet ratissa.

Heti tuntuu kevyemmältä, ihan kuin olisit saanut uuden työkaverin. Et hehkuta sitä heti kaikille. Ajattelet, että “tää on varmaan alkuhuumaa”.

Testaat vielä kerran, eri kysymyksellä. Päätät kokeilla, miten se reagoi, kun sä sanot:

“Odota, mä tarkennan.”

Pysyykö se vieläkin mukana? Jos pysyy, sä alat luottaa siihen kuten suomalaiset yleensä, käytännön kautta.

Lopulta se tuntuu yllättävän arkiselta. Sun maailma ei ehkä muuttunut vielä sillä ääninapin painalluksella, mutta pieni kitka arjesta katosi. Päivä meni aavistuksen helpommin, ja se riittää.

Joten ehkä siitä nyt voisikin tehdä hieman numeroa?

Mutta miten me oikein tultiin tähän?

Todella hyvä kysymys, että miten ihmeessä laitteelle puhuminen tuntuukin yhtäkkiä luontevalta, ja jopa kivalta ja sympaattiselta?

Ääniälyn lyhyen historian alkutaival ei mennyt siten, että Piilaaksossa yhtäkkiä joku vain sen keksi, että laitteelle voi puhua.

Äänikäyttöliittymien tarina, silloin lankapuhelinten aikana, alkoi arkisista puhelinpalveluista, jotka on monelle edelleen tuttuja:

”Valitse yksi, valitse kaksi, valitse ruutu.”

Ja jos sä valitsit väärin, sä palasit takaisin alkuun, niin kuin lautapelissä.

Ääni oli selkeä, mutta se ei kuunnellut sua. Se vain ohjasi. Se oli puhetta ilman keskustelua.

Moni oppi jo silloin, että äänikäyttöliittymä voi olla kätevä, mutta myös aika rasittava.

Samaan aikaan toisaalla kehitettiin jotain sellaista, mikä ei ollut samalla tavoin kaikkien saatavilla, ja sen kehitys oli hitaampaa.

Nimittäin sanelu ja puheentunnistus.

Ehkä sä olet kokeillut sitä joskus, ja pettynyt, kun se kirjoittaa “muistella” kun sanot “luistella”. Tai kun se kirjoittaa ”vaklata” kun sanot ”taklata”.

Ja sä päätit, että kattellaan myöhemmin.

(Nämä hauskat esimerkit olivat Ella ja kaverit -kirjasta, jossa mummo kuulee väärin.)

Se “myöhemmin” venyikin vuosiksi. Yleinen kiinnostus hävisi ehkä juuri silloin, kun piti antaa toinen mahdollisuus.

Kunnes sitten tuli ”se virallinen alku”

”Hei, ääniäly!”

Kun puhelin kertoikin, että siinä on avus…

”Hain tällaisia verkosta.”

…taja. Öö, sori. Mutta siis mistä sä…?

“Olen kuulolla, vaikka et välttämättä aina sitä muista.”

Mutta ethän sä osaa muuta kuin puhua aika hyvin suomea?

"Tarkoitat varmaan, kun yrität puhua kellolle ja leikki pysähtyy siihen."

No joo, just sitä.

“Tiedetään, se voi olla ärsyttävää.
Kuin tikkari, josta ei saa muovia riisuttua ympäriltä.”

No se on maailman ärsyttävintä.

“Ah. Kuinka raivostuttavaa.”

Mutta silti, ääniäly antoi lupauksen olla mukana arjessa.

“Hei, olen ääniäly.
Aina kun en hae verkosta,
kuuntelen Ääniäly-podcastia.”

“Okei, joo. Mutta ei kukaan kyllä keskustele niiden assistenttien kanssa. Mä en jotenkin ees tajunnut, että nehän tosiaan on sitä ääniälyä.”

Ääniohjaus tuli olohuoneisiin

Ja samalla se sai oman leimansa, se oli enemmän komentamista kuin keskustelua:

  • “Laita musiikki.”
  • “Sammuta valot.”
  • “Kerro sää.”

Hyötyä tuli siitä, että kädet pysyivät vapaina. Haittaa taas siitä, että ihminen alkoi varoa omaa puhettaan, koska ihminen oli sille vain kaukosäädin.

Moni oppi, että ääniohjausta käytetään vain silloin, kun ei tarvinnut selittää mitään. Ja silti oli edelleen ehkä helpompi painaa napista.

Mutta sitten kone alkoi ymmärtää kieltä toisenlaisella tavalla, ja se pysyi mukana siinä, mitä sä tarkoitit, vaikka et olisi puhunut selkeästi. Ja silloin voidaan jo puhua keskustelusta, jossa voit tarkentaa, perua, nauraa ja korjata.

Ihan niinkuin oikeassa keskustelussakin.

Ääniälyn historia on siis oikeastaan kahden eri kehityksen historiaa, jotka kulkivat pitkään erillään ja osuivat nyt päällekkäin:

  • Ensimmäinen oli puheen tunnistamisen ja tuottamisen kehittyminen.
  • Toinen oli “kielipää”, eli kyky ymmärtää, tiivistää, ehdottaa ja jatkaa ajatusta.

Kun nämä kaksi asiaa on nyt vihdoin saatu samaan synkkaan, keskustelu koneen kanssa ehkä alkaakin kuulostaa aika kiinnostavalta, ja jopa ihan hyödylliseltä.

Ja se tekee tästä vuodesta erityisen.

Äänikäyttöliittymä alkaa sulautua kaikkeen muuhun. Keskustelu voi liittyä esimerkiksi siihen mitä näet ruudulla, mitä olet tekemässä, mihin olet menossa, ja mitä haluat saada valmiiksi.

Se on kuin pieni luonteva apukerros, kaiken arkisen tekemisen päällä.

Ja toki silloin, kun jokin muuttuu liian helpoksi, tuleekin tarve ymmärtää hieman enemmän.

  • “Mihin tämä tallentuu?”
  • “Kuka kuuntelee, mitä puhun sille?”
  • “Saako se oikeuksia?”
  • “Mitä jos se mokaa?”

Ääniälyn lyhyt historia toistaa samalla tekoälyn historiaa:

  1. Ensin opittiin, ettei automaatti ymmärrä.
  2. Sitten opittiin, että se ymmärtääkin.
  3. Ja nyt opetellaan, että se ymmärtää niin hyvin, että sitä pitää ohjata fiksusti.

Ääniohjaus on viimein sellaisessa kohdassa, että se voikin muuttaa arjen rutiineja ihan oikeasti.

Kone ei ole muuttunut ihmiseksi, vaan kone on lakannut vaatimasta sinua puhumaan kuin koneelle.

Kerro lopuksi vielä Ääniäly-vinkki #1.

Tämä teksti on oikoluettu ääniaputoiminnolla. Se on pieni niksi, jonka hyötyjä on myös tutkittu jonkin verran.

(Tässä tekstissä on käytetty Macin Edit > Speech > Start Speaking -toimintoa, jonka hyödyntämisestä löydät lisää ohjeita Applen kotisivuilta.)

Kuvakaappaus macOS:n kontekstivalikosta: “Speech”-alavalikko on auki ja “Start Speaking” on valittuna, kun taas “Stop Speaking” näkyy harmaana; taustalla näkyy osittain tekstidokumentti.
Kuvakaappaus MacOS-kontekstivalikosta: Speech-valikon Start Speaking-toiminto

Kun teksti “pakotetaan” kulkemaan korvan kautta, omat aivot eivät pääse yhtä helposti hyppäämään tuttujen lauseiden yli, ja pieniä virheitä voi löytyä enemmän kuin hiljaa lukemalla.

Myös oppimismenetelmänä se voi olla tehokkaampi kuin niin sanottu ”hankalan fontin tekniikka”. Lukeminen ääneen parantaa virheiden havaitsemista verrattuna hiljaiseen oikolukuun, sekä kirjoitusvirheiden että kontekstivirheiden kuten sanavalintojen kohdalla.

Puheen kautta tehty oikoluku voi nostaa esiin erityisesti rytmin, lauserakenteen ja välimerkkien kömmähdyksiä.

Ja jos ei tee mieli lukea itse ääneen tai se ei onnistu vaikkapa kirjastossa tai avokonttorissa, synteettinen puhe toimii usein samalla idealla, ei muuta kuin kuulokkeet päähän.

Ellei sulla jo ole?

Kiitos kun kuuntelit tämän jakson. Ensi kerralla mukana onkin eka vieras!

Kommentit

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *