PROJEKTS

Parakstīts līgums ar Centrālo finanšu un līguma aģentūru (CFLA) darbības programmas “Izaugsme un nodarbinātība” 1.1.1.specifiskā atbalsta mērķa “Palielināt Latvijas zinātnisko institūciju pētniecisko un inovatīvo kapacitāti un spēju piesaistīt ārējo finansējumu, ieguldot cilvēkresursos un infrastruktūrā” 1.1.1.1. pasākuma “Praktiskas ievirzes pētījumi” ietvarā, par projekta:

“Neironu tīkli fleksīvo dabisko valodu apstrādei” (Nr.1.1.1.1/16/A/215) īstenošanu.

Projekts tiks īstenots sadarbībā starp - Sabiedrību Tilde un pētniecības institūciju - Latvijas Universitāte.

Projekts ilgs no 2016. gada 1. novembra līdz 2019. gada 31. oktobrim. Projekta kopējas izmaksas ir 690 672,13 EUR, t.sk., ERAF atbalsts 484 384,04 EUR.

Projekta īstenošanas vieta – Vienības gatve 75a, Rīga, Latvija un Raiņa bulvāris 19, Rīga, Latvija, LV-1586.

 

PROJEKTA AKTUALITĀTES

2018. gada 1. februāris – 2018. gada 30. aprīlis.

Projekta īstenošanas 6. posmā (no 2018. gada 1. februāra līdz 2018. gada 31. aprīlim) notika darbības:

I. Neironu tīklu lietojuma matemātiskie un kognitīvie aspekti valodu tehnoloģijās

II. Neironu tīklu lietojamība rakstītā teksta analīzē

III. Neironu tīklu lietojamība automatizētas tulkošanas uzdevumā

IV. Neironu tīklu lietojamība runas tehnoloģijās (LV, LT)

V. Neironu tīklu lietojamība cilvēka-datora saziņas modelēšanā

Pārskata periodā turpināti pētījumi par neironu tīklu lietojamību fleksīvo dabisko valodu apstrādē. Šajā periodā sekmīgi pabeigti vairāki pētījumi, to rezultāti apkopoti publikācijās, kā arī radīti vairāki pētnieciski prototipi.

Apmācības datu skrajuma problēma risināta, pētot morfoloģiski bagātu valodu segmentēšanu, ar nolūku samazināt unikālo tekstvienību skaitu tekstā. Secināts, ka morfoloģiski bagātu valodu segmentēšana pirms mašīntulkošanas dod zināmu pozitīvu efektu. Savukārt pārāk smalka segmentēšana dod drīzāk negatīvu efektu, samazinot tulkošanas kvalitāti, kas izskaidrojams ar teikuma kā vārdu segmentu virknes pagarināšanos, kam ir būtisks negatīvs iespaids uz tulkošanas kvalitāti. Pētījuma rezultāti apkopoti nodevumā. Izveidots teksta segmentēšanas rīks PRPE, kura izmantošana dod uzlabojumus neironu mašīntulkošanā starp latviešu un angļu valodām.

Pētot gramatiskumu un sintaktiskās konstrukcijas, tika konstatēts, ka dabiskās valodas lietotājam gramatiskā pareizība ir uztverama atšķirīgi, atkarībā no gramatisko konstrukciju veida. Vitāli būtiska ir prepozicionālās konstrukcijās ietvertā informācija, taču visai marginālas ir priedēkļu konstrukcijas un to kļūdas. Tāpat teikumu izpratni salīdzinoši būtiski traucējošas ir vārdu saskaņojuma kļūdas. Citi kļūdu veidi ir ar mazāku savstarpējo atšķirību, un to statistiskais un saturiskais nozīmīgums ir neviennozīmīgs un tam ir mazāka ietekme uz gramatiskuma izpratni. Pētījuma rezultāti apkopoti nodevumā.

Turpinot pētīt neironu tīklu modeļu piemērotību rakstītā teksta analīzei, tika analizēti sintaktiskās analīzes algoritmi un izveidoti neironu tīklu modeļi, kas (1) tekstu dala sintaktiski saistītos fragmentos, un (2) veic pilnu sintaktisko analīzi. Modeļu trenēšanai tika izmantots universālo atkarību formātā marķēts teksta korpuss. Pētījuma rezultāti apkopoti nodevumā, izveidots prototips. Teksta gramatiskuma pārbaudei ir izveidots modulis kļūdu noteikšanai tērzēšanas valodā, labojumu hipotēžu ģenerēšanai un labākās hipotēzes izvēlei.

Automatizētas tulkošanas uzdevumā pētītas metodes neironu mašīntulkošanas (NMT) sistēmu pielāgošanai konkrētām jomām, izmantojot jomas paralēlo datu korpusus un attulkotus konkrēto jomu vienvalodas datus. Šim nolūkam izstrādātas vairākas NMT sistēmas vairākiem tulkošanas virzieniem (piemēram, angļu<->bulgāru un vācu->angļu). Eksperimentu rezultātos empīriski noteikts, ka pielāgošanas metodes, izmantojot konkrētas jomas paralēlos datus, ļauj uzlabot NMT sistēmu tulkošanas kvalitāti pat par 25% (un vairāk), kā arī pielāgošanas metodes, izmantojot attulkotus konkrēto jomu monolingvālus datus, ļauj uzlabot NMT sistēmu tulkošanas kvalitāti par 6.4% (un vairāk).

Runātās valodas apstrādes jomā pabeigta adasoft valodas modeļu apmācīšana un novērtēšana. Secināts, ka adasoft strādā 3-4x ātrāk par pilno softmax, nezaudējot runas atpazīšanas kvalitāti. Ir izveidoti neironu tīklu risinājumi vairākiem pēcapstrādes uzdevumiem, izmantojot Transformer modeļus, kas pārspēj iepriekš iegūtos rezultātus šajos uzdevumos. Tika uzlabota pieturzīmju un lielo burtu atjaunošana runas atpazīšanas izvadam, kā arī tika izveidots jauns pieturzīmju atjaunošanas modelis ar 4 pieturzīmju klasēm (punkts, komats, domuzīme, jautājuma zīme) iepriekšējo divu vietā (punkts, komats). Pētījuma rezultāti apkopoti nodevumā, izveidots prototips. Uzsākta izpēte par pilna cikla runas atpazīšanu un runas sintēzi ar neironu tīkliem.

Pētījumā par cilvēka-datora saziņas modelēšanu, izmantojot neironu tīklus, turpināti pētījumi par metodēm, kas ļautu paaugstināt nodoma noteikšanas precizitāti: (1) veikti testi nodoma noteikšanai ar šajā projektā radīto automātisko kļūdu labotāju, (2) veikts tests ar valodas vienkāršošanu, (3) uzlabota FastText vektorizētāja darbība. Veikti testi ar vairākdimensionālu jēdzientelpu. Izveidots un notestēts konvolūciju tīkla modelis nodoma noteikšanai. Pētījumā radītā nodomu noteicēja precizitāte salīdzināta ar risinājumiem citām dialogsistēmu platformām. Pētījuma rezultāti apkopoti nodevumā, izveidots nodoma noteicēja prototips.

2017. gada 1. novembris – 2018. gada 31. janvāris.

Pārskata periodā turpināti pētījumi par neironu tīklu risinājumu lietojamību fleksīvo dabisko valodu apstrādē četrās projektā plānotajās jomās – rakstītā teksta analīzē, automatizētā tulkošanā, runas tehnoloģijās un cilvēka-datora saziņā.
Datu skrajuma problēmas mazināšanai tiek izstrādāta metode, kas ļauj vārdus sadalīt morfēmās vai citās lingvistiski pamatotās tekstvienībās. Radītas un attīstītas vairākas risinājuma versijas. Pētījuma gaitā tiek meklēts labākais risinājums, kas, no vienas puses, vārdu segmentēšanu var veikt, izmantojot valodneatkarīgu risinājumu, bet no otras puses, iekļaujot valodspecifiskas zināšanas, ļauj būtiski uzlabot dalījuma akurātumu.
Turpinot eksperimentālu un korelatīvu gramatiskuma un sintaktisko konstrukciju izpēti, veikta anketēšana, noskaidrojot respondentu viedokli par noteikta veida gramatiskām kļūdām. Anketēšanas dalībnieki izvēlēti, un anketēšanas rezultāti analizēti, ņemot vērā respondentu dzīvesvietu, vecumu un dzimumu. Lai arī iegūto rezultātu analīze vēl turpinās, respondentu vidū novērota atšķirīga atsevišķu kļūdu grupu uztvere, t.i., atsevišķas kļūdu grupas tiek labāk novērtētas nekā citas.
Analizējot neironu tīklu modeļu piemērotību rakstītā teksta analīzei teksta un teikuma gramatiskuma novērtēšanas uzdevumā, analizēta tērzēšanas kanālos lietotās valodas specifika un veidoti neironu tīklu modeļi šādu tekstu apstrādei un pārveidei. Šajā pētījuma posmā galvenokārt analizēti tērzēšanas vietnēs lietotie tipiskie saīsinājumi un dažādie latviešu valodas burtu atveides principi, izstrādātas metodes to identificēšanai.
Automatizētas tulkošanas uzdevumā analizēta pēcrediģēšanas efektivitāte ar projekta pētījumā radīto neironu mašīntulkošanas sistēmas modeli. Pētījumā radītais risinājums salīdzināts ar citu Eiropas universitāšu risinājumiem, kas tika iesniegti WMT 2017 konkursam ziņu automatizētas tulkošanas uzdevumā. Konstatēts, ka, tulkošanā izmantojot pētījumā radīto risinājumu, iespējams uzlabot produktivitāti par 13%, salīdzinot ar tulkošanu (rediģēšanu), izmantojot citu pētnieku izstrādātās mašīntulkošanas sistēmas.
Turpināta no paralēliem tekstiem automātiski uzgūtu vārdu un to tulkojumu izvērtēšana un angļu-latviešu elektroniskās vārdnīcas papildināšana. Papildinātais vārdnīcas materiāls caurskatīts, tipogrāfiski vienādots, ieviests ģenitīveņu marķējums. Papildus automātiski izgūtajiem papildinājumiem, ievadīts ap tūkstoti manuālo papildinājumu. Paplašināts frazeoloģismu lietojums. Veikti teorētiskie pētījumi par leksikas un frazeoloģijas ekvivalences problēmu vārdnīcā. Sagatavota un akceptēta publikācija “Phraseology in General Bilingual Dictionaries: Idioms as Equivalents of Single Words. In: Contrastive Phraseology: Languages and Cultures in Comparison. Cambridge Scholars Publishing. 2018.”
Darbībā “Neironu tīklu lietojamība runas tehnoloģijās” analizēta valodas modeļa ietekme uz runas atpazīšanas kvalitāti. Pārbaudīti vairāki neironu tīklu modeļi, meklējot piemērotāko gan no resursu, gan ātrdarbības, gan kvalitātes viedokļa.
Turpinot pētījumu par cilvēka-datora saziņas modelēšanu, izmantojot neironu tīklus, veikta liela apjoma modeļu un metožu izvērtēšana dialogsistēmai, kas veidota konkrēta uzdevuma veikšanai, lai atrastu piemērotāko metodi nolūka noteikšanai. Analizēti vairāki izteikumu reprezentācijas veidi neironu tīklu modeļos, salīdzināti klasifikācijas algoritmi un datu reprezentācijas veidi. Analizētas metodes nebūtisku vārdu identificēšanai, to ietekme uz nolūka noteikšanu.
Projekta īstenošanas 5. posmā (no 2017. gada 1. novembra līdz 2018. gada 31. janvārim) notika darbības:
I. Neironu tīklu lietojuma matemātiskie un kognitīvie aspekti valodu tehnoloģijās
II. Neironu tīklu lietojamība rakstītā teksta analīzē
III. Neironu tīklu lietojamība automatizētas tulkošanas uzdevumā
IV. Neironu tīklu lietojamība runas tehnoloģijās (LV, LT)
V. Neironu tīklu lietojamība cilvēka-datora saziņas modelēšanā

2017. gada 1. augusts - 31. oktobris.

Pārskata periodā turpināti pētījumi par risinājumiem datu skrajuma mazināšanai. Veikti pētījumi par veidiem, kā valodai specifiskās zināšanas iekļaut neironu tīklu modeļos un izmantot dekodēšanas laikā.

Turpināta gramatiskuma un sintaktisko konstrukciju empīriska un eksperimentāla izpēte. Sagatavoti dati, izveidoti anketējamo profili un veikts pilottests teikuma gramatiskuma novērtēšanai, uzsākta pilna apjoma anketēšana un iegūto rezultātu izvērtēšana.

Lai novērtētu neironu tīklu modeļu piemērotību teksta un teikuma gramatiskuma novērtēšanas uzdevumā, veikta datu sagatavošana, izmantojot regulārās izteiksmēs balstītu teikumu “sabojāšanu”. Izveidoti vairāki neironu tīklu modeļi un veikti pirmie eksperimenti ar šiem modeļiem, lai tekstā identificētu gramatikas kļūdas un lai labotu tās.

Darbībā “Neironu tīklu lietojamība automatizētas tulkošanas uzdevumā“ pabeigta bāzlīnijas pilna cikla neironu tīklu mašīntulkošanas modeļu izstrāde. Pētīta lingvistiski motivēta vārdu dalīšana atvērtas vārdnīcas neironu mašīntulkošana sistēmām. Turpināta vārdu tulkojumu izvilkšana no tulkošanas modeļiem, to novērtēšana un iekļaušana cilvēkam domātā elektroniskā vārdnīcā. Veikta automātisko procesu pieļauto kļūdu apzināšana un analīze. Šajā darbībā iegūtie rezultāti publicēti divu konferenču rakstu krājumos un prezentēti: TSD 2017 konferencē “Neural Machine Translation for Morphologically Rich Languages with Improved Sub-word Units and Synthetic Data” un WMT 2017 konferencē “Tilde’s Machine Translation Systems for WMT 2017

Darbībā “Neironu tīklu lietojamība runas tehnoloģijās” turpināti eksperimenti ar telefonsakaru kvalitātes (8KHz) trenēšanas datu automātisku izveidi no parastiem augstas kvalitātes datiem. Implementēti vairāki neironu tīklos balstīti modeļi skaitļu konvertēšanai no cipariskas formas uz vārdiem. Uzsākta neironu tīklu modeļu novērtēšana latviešu un lietuviešu valodām. Sagatavots nodevums “Automātiskas un pusautomātiskas metodes runas korpusa anotēšanai un sastatīšanai”

Darbībā “Neironu tīklu lietojamība cilvēka-datora saziņas modelēšanā” veikti pirmie eksperimenti ar pilna cikla neironu tīklu dialogsistēmām, izmantojot latviešu valodai pieejamos datus. Veikta vairāku datu modeļu salīdzināšana. Uzsākta risinājuma meklēšana datu skrajuma problēmai. Uzsākta nepieciešamo datu vākšana neironu tīklu modeļa izveidei, kas ļautu automātiski noteikt izteikuma nolūku un atrast tam piemērotāko atbildi jomai pielāgotā risinājumā. Uzsākta neironu tīklu risinājumu mašīntulkošanas uzdevumam adaptēšana nolūka noteikšanai (tulkošana no izteikuma uz nolūku).

Projekta īstenošanas 4. posmā (no 2017. gada 1. augusta līdz 2017. gada 31. oktobrim) notika darbības:

I. Neironu tīklu lietojuma matemātiskie un kognitīvie aspekti valodu tehnoloģijās

II. Neironu tīklu lietojamība rakstītā teksta analīzē

III. Neironu tīklu lietojamība automatizētas tulkošanas uzdevumā

IV. Neironu tīklu lietojamība runas tehnoloģijās (LV, LT)

V. Neironu tīklu lietojamība cilvēka-datora saziņas modelēšanā

Informācija ievietota 31.10.2017.


uz 2017. gada 31. jūliju:

Pārskata periodā

Turpināta literatūras un metožu izpēte par neironu tīklu modeļu izmantošanu statistiskās mašīntulkošanas risinājumos, vārdu jēdzientelpu analīzei, lai gūtu priekšstatu un zināšanas par esošiem risinājumiem vārdu jēdzientelpu vizualizācijai un to potenciālos lietojumus. Pārskata periodā pabeigta datu sagatavošana statistiskās mašīntulkošanas un neironu tīklu modeļu bāzlīnijas versiju izstrādei. Pārskata periodā pabeigta metožu apzināšana pilna cikla neironu tīklu mašīntulkošanas modeļu izstrādei. Uzsākta bāzlīnijas pilna cikla neironu tīklu mašīntulkošanas modeļu izstrāde. Tika veikta jaunu (vārdnīcās neiekļautu) vārdu tulkojumu izvilkšana no tulkošanas modeļiem, kas iegūti no liela paralēlā datu korpusa.

Latviešu valodas gramatikas kļūdu tipoloģija ir salīdzināta ar kļūdu tipiem, kurus piedāvā labot angļu valodas gramatikas pārbaudes rīki. Ir identificētas kļūdu grupas, kuras būtu izmantojamas gramatiskuma vērtēšanas testos. Ir apzināti ar kļūdu tipiem  marķēti korpusi, kuru piemērus varētu izmantot gramatiskuma vērtēšanas testos.

Veikti eksperimenti ar telefonsakaru kvalitātes (8KHz) trenēšanas datu automātisku izveidi no parastiem augstas kvalitātes datiem. Implementēti pirmie uz neironu tīkliem balstīti modeļi skaitļu konvertēšanai no cipariskas formas uz rakstītiem vārdiem, kas ir vajadzīgs valodas modeļu trenēšanas datu apstrādei. Veikta novērtēšana un salīdzinājums ar klasisko uz likumiem bāzēto risinājumu.

Projekta īstenošanas 3. posmā (no 2017. gada 1. maija līdz 2017. gada 31. jūlijam) notika darbības:

I. Neironu tīklu lietojuma matemātiskie un kognitīvie aspekti valodu tehnoloģijās

II. Neironu tīklu lietojamība rakstītā teksta analīzē

III. Neironu tīklu lietojamība automatizētas tulkošanas uzdevumā

IV. Neironu tīklu lietojamība runas tehnoloģijās (LV, LT)

V. Neironu tīklu lietojamība cilvēka-datora saziņas modelēšanā


uz 2017. gada 28. aprīli:

Pārskata periodā turpināta jaunākās literatūras un pētījumu rezultātu analīze par fleksīvo dabisko valodu apstrādi, izmantojot neironu tīklus. Uzsākta padziļināta datu skrajuma problēmas izpēte. Veikta teorētiskās un metodoloģiskās literatūras izpēte par gramatiskuma eksperimentālu un korelatīvu pētniecību. Izmantojot neironu tīklu modeļus, veikti pirmie laboratoriski eksperimenti to lietojamības izpētei rakstītā teksta analīzē, mašīntulkošanā un runas atpazīšanā. CICLING 2017 konferencē prezentēti pirmie pētījuma rezultāti par neironu tīklu lietojumu mašīntulkošanā, pētījumu rezultāti apkopoti publikācijā, kas iesniegti publicēšanai šīs konferences rakstu krājumā.

 

Projekta īstenošanas 2. posmā (no 2017. gada 1. februāra līdz 2017. gada 28. aprīlim) notika darbības:

I. Neironu tīklu lietojuma matemātiskie un kognitīvie aspekti valodu tehnoloģijās

II. Neironu tīklu lietojamība rakstītā teksta analīzē

III. Neironu tīklu lietojamība automatizētas tulkošanas uzdevumā

IV. Neironu tīklu lietojamība runas tehnoloģijās (LV, LT)

V. Neironu tīklu lietojamība cilvēka-datora saziņas modelēšanā


uz 2017. gada 31. janvāri:

Projekta īstenošanas 1. posmā (no 2016. gada 1. novembra līdz 2017. gada 31. martam) notika darbības:

II. Neironu tīklu lietojamība rakstītā teksta analīzē

III. Neironu tīklu lietojamība automatizētas tulkošanas uzdevumā

IV. Neironu tīklu lietojamība runas tehnoloģijās (LV, LT)

V. Neironu tīklu lietojamība cilvēka-datora saziņas modelēšanā


 

PROEJKTU LĪDZFINANSĒ EIROPAS REĢIONĀLĀS ATTĪSTĪBAS FONDS.