Mākslīgais intelekts runā arī latviešu valodā

“Tildes” runas tehnoloģijas svin jau 15 gadus, un uzņēmuma pētnieku komanda aktīvi strādā pie jaunas, uzlabotas “Tildes Balss” versijas.

Balss sintēzes tehnoloģija, kas ļauj rakstītu tekstu pārvērst runā, plaši pieejama izplatītākajās pasaules valodās, bet par mazās un sarežģītās latviešu valodas pārstāvēšanu digitālajā vidē jau 15 gadus rūpējas valodu tehnoloģiju uzņēmums “Tilde”, kurš šobrīd strādā pie jaunākās mākslīgi sintezētās balss versijas. Šo gadu laikā minētā mākslīgā intelekta tehnoloģija no zinātniska eksperimenta kļuvusi par nozīmīgāko balss sintēzes pielietojumu latviešu valodā, ko aizvien biežāk izmanto arī biznesa vajadzībām.

Mākslīgā intelekta balss latviešu valodā vēl nekad nav bijusi tik līdzīga īsta cilvēka balsij

Pēdējo gadu laikā izveidoti vairāki prototipi, un šobrīd top jau trešā mākslīgi sintezētās balss versija, kas veidota, izmantojot modernākās mākslīgā intelekta tehnoloģijas un neironu tīklus. Ar katru “Tildes Balss” paaudzi pētnieki arvien vairāk tuvojas cilvēka balsij līdzīgam plūdumam un intonācijai ― tas ir līdz šim vēl nebijis sasniegums latviešu valodas tehnoloģijās.

“Ne kurš katrs atšķirs šo mākslīgi sintezēto balsi no īsta cilvēka balss. Mūsu jaunākās balss kvalitāte ir līdzvērtīga populāro valodu balss tehnoloģijām, ko radījušas lielas pētnieku komandas ar milzīgām investīcijām. Mums izdevies šādu risinājumu izveidot latviešu valodai, bet daudzas citas mazo kopienu valodas par to var tikai sapņot,” apliecina “Tildes” pētījumu un izstrādes direktors Raivis Skadiņš.

Runas algoritma apmācīšanai jau pirms vairākiem gadiem izvēlēta leģendārā Latvijas radio ziņu diktore Sandra Glāzupa

“Tildes” runas tehnoloģijas stāsts sākās ar vēlmi palīdzēt cilvēkiem ar redzes traucējumiem, bet mūsdienās pielietojums kļuvis daudz plašāks

“Tildes” runas tehnoloģijas pirmsākumi meklējami 2005. gadā, kad tika izveidots pirmais balss sintezators Latvijā ― Visvaris, kurš bija īpaši pielāgots cilvēkiem ar redzes traucējumiem. Visvari izveidoja “Tildes” tehnoloģiju entuziasti sadarbībā ar Latvijas Neredzīgo biedrību, tā liekot spēcīgus pamatus iekļaujošākas sabiedrības veidošanā.

“Tildes” mūsdienu paaudzes runas tehnoloģijas ir labs palīgs cilvēka un datora komunikācijā, izglītības procesā un biznesā. Balss sintēze noderīga ne tikai tiem, kuri dod priekšroku informācijai audio, nevis teksta formātā, piemēram, klausoties tekstu pie stūres mašīnā, bet arī cilvēkiem ar disleksiju vai redzes traucējumiem. 1/5 Latvijas iedzīvotāju ir lasīšanas traucējumi, īpaši tuvojoties vecumdienām, tie saasinās ― seniori vairs nevar izlasīt un uztvert tekstu tā kā jaunībā. Pandēmijas laikā aktualizējies jautājums par balss tehnoloģiju izmantošanu arī mācību procesā, piemēram, apgūstot obligāto lasāmvielu ar audiogrāmatu palīdzību.

“Tildes” runas tehnoloģijas daudzi uzņēmumi izmanto jau tagad

Runas tehnoloģijas lietojamas ne tikai teksta pārvēršanai runā, tās strādā arī pretējā virzienā ― pārvēršot balsi vai audio teksta formātā. Šī runas tehnoloģija pēdējo gadu laikā aizvien vairāk tiek izmantota arī biznesa vajadzībām, piemēram, klientu apkalpošanas jomā.

Jau tagad “Latvenergo” klienti var nosaukt savus elektrības skaitītāju rādījumus pa tālruni un “Tildes” runas atpazīšanas tehnoloģija tos ievada sistēmā teksta formātā. Mediju monitoringa un tirgus izpētes kompānija “Kantar TNS” gan Lietuvā, gan Latvijā izmanto automātiskās runas atpazīšanas tehnoloģiju, lai monitorētu un identificētu audio un video ierakstus.

“Tildes” biznesa attīstības vadītājs Kaspars Kauliņš: “Runas tehnoloģijas pēdējo gadu laikā piedzīvo strauju atdzimšanu dažādos biznesa lietojumos. Tās ļauj piekļūt runātam saturam, lai veiktu dažāda rakstura analīzi, nodrošina saziņu ar lietotājiem automatizētu zvanu formātā, kā arī dažādu viedierīču balss pārvaldību. Un, protams, nevaru nepieminēt arī balss vadītus virtuālos asistentus, kas nāk talkā uzņēmumiem ikdienas klientu atbalsta un apkalpošanas uzdevumos.”

Runas tehnoloģiju nākotne

“Tilde” arī turpmāk plāno attīstīt runas tehnoloģijas dažādām valodām un lietojumiem. Uzņēmums šobrīd strādā pie šo tehnoloģiju pielāgošanas dažādu industriju vajadzībām, piemēram, medicīnai. Balss un runas atpazīšanas risinājumu tirgus turpina strauji augt, un tiek prognozēts, ka no 10,7 miljardiem ASV dolāru 2019. gadā tas sasniegs 32,2 miljardus ASV dolāru 2027. gadā. Turklāt tieši veselības aprūpes un medicīnas nozare ir viena no lielākajām un aktīvākajām šo tehnoloģiju risinājumu ieviesējām un izmantotājām. Tieši veselības nozarē arvien straujāk notiek arī balss vadītu virtuālo asistentu ieviešana ― prognozes liecina, ka šādu risinājumu tirgus līdz 2025. gadam sasniegs 703,2 miljonus ASV dolāru. Runas tehnoloģiju atpazīstamība pasaulē pēdējos gados ievērojami pieaugusi galvenokārt runas asistentu un ar balsi vadāmu viedierīču dēļ. Nākotnē robots jeb virtuālais ārsta palīgs varētu ievākt un saglabāt informāciju par pacientu, palīdzēt apmeklētājiem orientēties un uzturēties veselības iestādēs. Savukārt īpaši pielāgots runas atpazīšanas algoritms palīdzēs ārstiem un citiem medicīnas nozares speciālistiem sagatavot dažāda rakstura dokumentus ― anamnēzes, slēdzienus, izmeklējumu rezultātu aprakstus un citus.

Iztēloties nākotni turpina Kaspars Kauliņš: “Bils Geits paredzēja runas tehnoloģiju izrāvienu jau vairāk nekā pirms 20 gadiem. Šī revolūcija nu ir klāt, un tirgus tikai turpinās attīstīties, paverot arvien jaunas iespējas. Jau tuvākajā nākotnē tik ierastā dzīvesbiedra balss atgādinās par plānotajām dienas aktivitātēm, un ziņas, braucot auto, lasīs mīļākie aktieri. Balss ne tikai izrunās tekstu, bet arī spēs ietvert dažādas emocijas un intonācijas, piemēram, prieku, skumjas vai brīdinājumu. Mēs neesam tālu no brīža, kad ar balss komandām latviešu valodā varēs iepirkties, kontrolēt dažādas viedierīces mājās vai vadīt mašīnu. Iesācies interesants ceļojums, un jaunā “Tildes Balss” ir daļa no tā.”

“Tildes” runas tehnoloģijas var izmēģināt ikviens bez maksas mobilajā lietotnē “Tildes Balss”, kā arī mājaslapā ― www.tilde.lv/tildes-balss.