Kā top vārdnīcas mūsdienās?

Autore : Madara Mieriņa

Latviešu-angļu vārdnīcu Andrejs Veisbergs, valodniecības profesors un tulks, veido nu jau 24 gadus. Autors bijis līdzās, vārdnīcai no papīra formāta pārceļoties datorā, un pats savu veikumu dēvē par hibrīdu, jo šobrīd vārdnīca pieejama gan elektroniski, gan 2015. gadā izdota vairāk nekā 1000 lappušu biezā grāmatā. Pēdējos gados vārdnīcas bagātināšanai talkā nākušas jaunākās tehnoloģijas un modernas automatizācijas metodes, kuras pārvalda Tildes vārdnīcu speciāliste un informācijas sistēmu arhitekte Daiga Deksne.

Kā parasti notiek vārdnīcas veidošana?

Andrejs Veisbergs: “Vārdnīcas veido ļoti dažādi: var veidot no nulles, var papildināt esošās. Runājot par latviešu-angļu vārdnīcu, kaut ko ņēmām no E. Turkinas vārdnīcas, turklāt ne vienmēr no pēdējā varianta, un tad audzējām. No sākuma paplašināšana bija manuāla, tajā laikā jau vēl nebija jauno tehnoloģiju. Ņēmām blakus latviešu valodas vārdnīcu, skatījāmies, kā trūkst, labojām kļūdas, šo to svītrojām ārā, likām klāt. Tad piepulcinājām ekspertus no dažādām jomām, kas pārskatīja un papildināja savus lauciņus izdrukās. Protams, radās arī zināmas problēmas, sabalansējot saturu, ja, piemēram, muzikologs gribēja ielikt 1000 terminus, bet biologs ― tikai 500. Tā izveidojās Jaunā latviešu angļu vārdnīca. Tālāko papildināšanu un labošanu turpināju pats failos. Man ir pieejami daudzi tulkojumi, ar ko darbojos, glosāriji, parādās dažādu nozaru vārdnīcas, kurās ir jauni vārdi un nozīmes. Ļoti bieži kaut ko dzirdu radio, televīzijā un saprotu: “Šī laikam vēl nav vārdnīcā.”

Tā vārdnīca pakāpeniski augusi, līdz sākām sadarboties ar Tildi, kur parādījās smalkāka un modernāka pieeja. Piemēram, apgrieztais variants. Tilde apgrieza angļu-latviešu vārdnīcu, uzlīmēja virsū manai vārdnīcai, un skatījāmies ― atklājās daudz interesanta un noderīga. Ir bijuši vairāki korpusu izmantošanas varianti, veidojot vārdnīcā neesošu vārdu sarakstus un tā papildinot vārdnīcā iztrūkstošo. Taču daudz grūtāk ir paplašināt nozīmju apjomu.”

Daiga Deksne stāsta, ka programmētājs no sava skatupunkta raugoties uz vārdnīcu, tik daudz nedomā par semantiku, bet šķirkļa uzbūvi: “Ir svarīgi saprast vārdnīcas daļas, jo katram šķirklim ir sava struktūra ― nozīmju numuri, gramatiskā informācija―, kas ir šķirkļa mugurkauls. Apstrādājot vārdnīcas, svarīgi pārbaudīt, vai šī struktūra atbilst etalonam: vai ir sākumā šķirkļa vārds, vai pēc tam seko tulkojumi, vai ir īstā uzbūve.”

Jaunāko tehnoloģiju piesaiste

Informācijas sistēmu arhitekte skaidro, ka tehnoloģijas var palīdzēt autoriem, vienkāršā veidā atlasot vārdus no lieliem datu korpusiem, salīdzinot, vai vārdi jau nav iekļauti vārdnīcās, un sagatavojot jēlmateriālu ar tādiem populāriem vārdiem, kas tiek lietoti ikdienā daudz un ir plaši pieejami, bet nav līdz šim bijuši iekļauti vārdnīcās un droši vien nav ienākuši prātā vārdnīcas autoriem. Šāds iepriekš sagatavots pamatmateriāls ir laba bāze, uz kā atsperties leksikogrāfiem, lai varētu izdomāt, ko jaunu vēl likt klāt vārdnīcām.

Daiga Deksne norāda, ka jēlmateriāla pamatā ir vispārīgie un ziņu korpusi, jo tajos visvairāk parādās jaunie vārdi: “Nav jēgas likt klāt vienai nozarei vien vajadzīgus vārdus, kas, protams, ir un daudz, bet vispārīgā vārdnīcā no tā nebūs labums visiem. Darbs būs pārāk liels, un ieguvums niecīgs ― pavisam mazam cilvēku lokam tas būs noderīgs.”

Vai vārdnīcas autors vispār vajadzīgs ― savācam, saliekam, mākslīgais intelekts kaut ko atfiltrē?

“Ir tomēr vajadzīgs valodnieks, kas izvērtē, vai vārds vispār ir pareizs vārds. Korpusos ir daudz gružu un vārdu ar pareizrakstības kļūdām, nepareizām galotnēm, ko nereti pieļauj gan dzimtās valodas runātāji, gan tie, kam latviešu valoda nav dzimtā. Vārdnīcu nevajag piesārņot ar vārdiem, ko cilvēki lieto sarunvalodā, tai jābūt kā etalonam ar pareizajiem vārdiem,” stāsta Daiga.

Arī Andrejs piekrīt: “Kaut kāda līnija jau tiek novilkta. Agrāk sarunvaloda netika uzskatīta par īstu valodu, un vecajās vārdnīcās tā ir pārstāvēta minimāli. Tagad sarunvalodas leksiku liekam iekšā daudz, bet apstājamies pie rupjām lietām un šībrīža slenga, kas ir ļoti pārejoša parādība, piemēram, “da jebkas”. Latvisko parupjo leksiku ievietoju, bet aizgūto no krievu vai angļu valodas, ko dzirdam visapkārt, ― “fak” un “bļin” ― nē. Aizvakar ieliku vārdu “johaidī” ― īsti latvisks nav, bet labi asimilēts, lietots ilgu laiku, pat ja šodien varbūt retāk. Vienmēr paliek cilvēciskais faktors, ko ņemt un ko ne ― leksikogrāfi jau sen norādījuši, ka visas vārdnīcas ir mazliet subjektīvas.”

“Ar pilnīgu automātiku nekas nesanāks,” turpina speciāliste. “Daudzi vārdi ir daudznozīmīgi un automātiski nevar izvērtēt, kura no vārda nozīmēm būtu minama kā pirmā, kura ir pamatnozīme, atvasinātā nozīme un vai vārds tiek lietots pārnestā nozīmē.”

Andrejs Veisbergs papildina: “Dators nozīmes neatklāj, nespēj sadalīt. Varbūt kādreiz tas brīdis pienāks, bet jebkurā gadījumā beigās būs cilvēka vērtējums un subjektīvais viedoklis: “Tas ir par biežu, tas ir par retu, te ir ļoti dīvaina nozīme.” Džīna Aičisone (ang. ― Jean Aitchison) teikusi, ka vārdu nozīme nav kukaiņu kolekcijas vitrīnā “piesprausts beigts kukainis, bet taurenis, kurš plivinās”, un mēs pat īsti nezinām, kāda tā nozīme ir. Kontekstā nozīme noskaidrojas, bet ir arī daudz subjektīvo lietojumu. Visi jau ir kādreiz nodomājuši: “Kāpēc viņš runā tik dīvaini?” Tas ir tā sauktais idiolekts ― katram no mums ir mazliet atšķirīga valodas bagāža, pieredze un priekšstati, ko vārds nozīmē. Piemēram, ko nozīmē “sievišķīgs”?”

Kurš procesā svarīgāks ― leksikogrāfs vai programmētājs, kas sagatavo datus?

Andrejs: “Caurskatīt labi saliktu un dažādi iekrāsotu materiālu ir daudz patīkamāk gan acīm, gan smadzenēm nekā skatīties monitorā, vairākās vārdnīcās, blakus turēt sarakstus un vilkt ar pirkstu līdzi ― kas te ir, kā te nav. Pamanīt jaunos vārdus sarakstā, kas atlasīts ar datora palīdzību, ir daudz vieglāk nekā mēģināt izlasīt visu, kas ir publicēts latviešu valodā, noklausīties visas radiopārraides, ķerstot vārdus un minot, vai tos vēl kāds lieto. Jo tekstā parādījies jauns vārds nenozīmē, ka to lieto daudzi un tam vieta vārdnīcā.”

Daiga stāsta, ka gan leksikogrāfam, gan programmētājam ir katram sava nozīme: “Leksikogrāfs varētu iztikt vispār bez programmētāja, bet tad leksikogrāfa darbs būtu ļoti neefektīvs. Pašam sameklēt, kā īsti trūkst vārdnīcā, kuri ir neaizpildītie robi un kas tieši vajadzīgs vārdnīcas lietotājiem, ― būtu grūti un varbūt pat neiespējami, jo viens cilvēks vienkārši nevar iedomāties, ko vēl vajadzētu.”

Nav tā, ka jauno metožu dēļ leksikogrāfiem būtu samazinājies darba daudzums. Gluži pretēji ― profesors konstatē, ka apjoms ir palielinājies, un tehnoloģijas palīdz, sanesot informāciju vienkopus: “Savā laikā Leonardo da Vinči varbūt zināja visus itāļu valodas vārdus, bet tagad angļu valodā vien ir 40 miljoni terminu. Valodiski ļoti attīstīts cilvēks varbūt var pasīvi atpazīt 200 tūkstošus. Tātad cilvēks bez tehnoloģijām šajā valodas jūrā vispār nespēj orientēties. Bez tehnoloģijām mēs paliktu pie ļoti sašaurinātas valodas apzināšanas un lietojuma.”

Vai papīra vārdnīcas ir pagātne?

“Man žēl, bet, jā, uz to mēs ejam ļoti strauji,” piekrīt Andrejs Veisbergs, stāstot, ka viņa vārdnīca, kas izdota pirms dažiem gadiem, diez vai vēl tikšot drukāta, jo esot kļuvusi visai liela. “Mazās un vidējās ― skolām, iesācējiem ― kādu laiciņu vēl būs, bet pavisam lielās nez vai vairs drukās. Arī Oksfordas daudzsējumu vārdnīca iestrēgusi nemitīgā papildināšanā un vairs netiks drukāta. Tāpat arī enciklopēdijas, kuras 30 sējumos jau vairs neviens uz papīra neiespiež. Ir milzu problēmas ar papildināšanu un lietošanas parocīgumu. Savulaik enciklopēdijai “Britannica” katru gadu laida klajā papildinājuma sējumu. Pieņemsim, gribi apskatīt informāciju par vīrusiem. Apskaties pamatsējumā, pēc tam jāskatās arī visos pārējos, jo kaut kas jauns par vīrusiem tiek atklāts ik gadu. Tā jau cilvēks var prātā sajukt: kam ticēt, kas ir novecojis? Elektroniski tomēr visu var salikt vienuviet, atjaunot, izrediģēt.”

Daiga domā, ka drukātās vārdnīcas ir gana svarīgas un nekur nepazudīs: “Man patīk papīra vārdnīcas, ko izņemt no plaukta un pašķirstīt. Piekrītu, ka lielās vārdnīcas ar daudzajiem saīsinājumiem, kuros atstāts tikai pirmais burts ar punktu, lai taupītu papīra vietu, ir grūti lasāmas un neērti lietojamas. Vidēja izmēra vārdnīcām noteikti ir lielāka vērtība drukātām. Šķirstot lapas, uzreiz redzi lielāku šķirkļu apjomu, redzi, kas ir apkārt, kas ir radniecīgi vārdi, un uzreiz pat negribot gūsti lielāku informāciju, kas noder. Ja es īsti nezinu, ko meklēt, papīra vārdnīcā labāk to varu atrast. Meklējot elektroniski, diezgan precīzi jāzina, ko gribu.”

Profesors stāsta, ka nākotnē elektroniskajās divvalodu vārdnīcās parādīsies dažādas saites. Pagaidām latviešu vārdnīcās tādu nav. Varēsim aplūkot attēlus, jo daudzus jēdzienus vieglāk izskaidrot ar attēlu, nevis aprakstīt, piemēram, žirafi vai mezglu. Varēsim atvērt saites uz lietojuma piemēriem ― Tezaurā tās jau ir ―, un būs vairāk fona informācijas. Iespējams, varēsim pasūtīt mākslīgā intelekta izveidotu specializētu vārdnīcu tieši sev.

Par ko domāt šībrīža vārdnīcu autoriem?

“Man patīk ar vārdiem darboties un spēlēties, bet pieļauju, ka kādam veidot vārdnīcu varētu likties garlaicīgi, nogurdinoši un varbūt pat frustrējoši, jo bieži ir problēmas, kad īsti nezini, ko darīt,” atklāj Andrejs Veisbergs, aicinot autoriem apzināties gaidāmā darba grūtības. “Piemēram, zinu, ka angļu valodā ir samērā jauns vārds, kas tiek plaši lietots, droši vien tam būs nākotne, bet latviešu valodā nav pretī nekā vai arī ir pieci dažādi varianti. Ko darīt? Ievietot visus piecus, būt patvaļīgam lēmējam, kurš ir pareizais? Nelikt un gaidīt? Ar vārda iekļaušanu vārdnīcā jābūt uzmanīgam, jo vārdnīca normē lietojumu. Tas ir savā ziņā paradokss ― deskriptīva vārdnīca, kas pilnībā ataino reālo valodu, gluži vai automātiski kļūst preskriptīva.”

Autors stāsta, ka vārdnīcas papildināšana nekad nebeidzas: “Strādāju ar vārdnīcu vidēji pa stundai dienā, un gandrīz vai katru dienu atklāju ko nepareizu, nepilnīgu. Piemēram, “brūklene” 20. gs. angliski bija atveidota nepareizi. Arī šodien Latvijā ražotie ievārījumi bieži ir nepareizi nosaukti ― acīmredzot lietotas vecas vārdnīcas. Bieži atklājas, ka vārdnīcā trūkst visai vienkāršu, parastu vārdu. Tas ir pārsteidzoši, gluži kā toreiz, kad ap divtūkstošo gadu pēkšņi izrādījās, ka vārdnīcā nav vārda “ledusskapis”. Un tā notiek, pat skenējot korpusus. Esmu runājis ar Oksfordas izdevniecības kolēģiem, kas atzina, ka arī viņu vārdnīcās, kuras pārskata simtiem veidotāju, redaktoru un korektoru, regulāri tiek atklātas nepilnības.”

Daiga Deksne iesaka vārdnīcu veidotājiem balstīt vārdnīcas uz korpusiem, jo tajos parādās formas, ko cilvēki lieto. “Leksikogrāfijā ir pieņemts nelikt vārdnīcās regulāros atvasinājumus, piemēram, divdabjus, ko atvasina, pieliekot konkrētu izskaņu regulārā veidā, bet ne jau katrs vārdnīcas lietotājs ir valodnieks. Ne jau viņš pats savā prātā vienmēr var izdomāt: “Te ir darbības vārds, man vajag divdabi no šī vārda.” Bieži vien vārdnīcās nav norādīti visi priedēkļverbi, kas tiek plaši lietoti latviešu valodā, un tad cilvēks nesaprot, kā viņam vārdu pārtulkot. Tāpat nav vārdu sieviešu dzimtē, piemēram, profesiju un tautību nosaukumu. Elektroniskā vārdnīcā ir gana daudz vietas, lai ieliktu visu vajadzīgo. Vienkārši nevajag balstīties tikai uz klasiskajiem leksikogrāfu principiem, bet tomēr skatīties, kas ir korpusā, kas ir vajadzīgs un tiek lietots.”