Andrejs Spektors
LU Matemātikas un informātikas institūts
Raksts sniedz pārskatu par Latvijas Zinātnes padomes 11. nozares (valodniecība) granta Nr. 96.0245 "Latviešu valodas datorfonds" darbu izpildi. Izveidots 10 miljonu vārdlietojumu latviešu valodas tekstu korpuss, izstrādāta morfosintaktiskās marķēšanas metodika, izveidots latviešu valodas datorleksikons aptuveni 450 000 vārdu apjomā un turpinās tā marķēšanas metodikas izstrāde. Uzsākta latviešu valodas runas korpusa izveide un tā marķēšanas metodikas izstrāde.
Raksts publicēts žurnālā "Latvijas Zinātņu akadēmijas vēstis. Sērija A", 2001. g. Nr 2, 74. 82. lpp., iesniegts publicēšanai 2000. gada 15. maijā.
Sakarā ar interneta straujo attīstību visā pasaulē, valodas datorsistēmu attīstīšana mūsdienās kļūst par attiecīgās valodas izdzīvošanas jautājumu nākotnē. Informācijas apmaiņa pieaug proporcionāli jauno informācijas tehnoloģiju attīstībai un Mākslīgā intelekta attīstība paplašina plaisu starp industriālajām pasaules valstīm un pārējo pasaules daļu. Cilvēces vēsture jau ir pierādījusi, ka zinātnes un tehnikas attīstība ietekmē humanitārās sfēras jau no vissenākajiem laikiem. Kā spilgtākie piemēri šajā sakarā jāmin rakstības izgudrošana, par kuras paredzamajām kaitīgajām sekām stāsta leģendas, un iespiedtehnikas izgudrošana ar "Gūtenberga efektu" (pakāpeniska to valodu izzušana, kurās netika ieviesta un izmantota iespiedtehnika). Eiropas Savienības institūcijās jau no 90. gadu sākuma apspriež iespējamās "otrā Gūtenberga efekta" sekas saistībā ar datoru un mākslīgā intelekta sistēmu plašu ieviešanu visās jomās, īpaši informācijas apstrādes tehnoloģijās [1]. Arī Latvijā jau ir sācies līdzīgs process: bērni un jaunieši daudz laika pavada pie interneta monitoriem, kur piedāvātā informācija galvenokārt ir tikai angļu valodā. Rezultātā daži īpatņi (dzimuši latvieši) latviešu valodu vairs neprot lietot bez angļu iestarpinājumiem un gramatiskajām formām.
Jebkurai valodai, kas vēlas izdzīvot nākotnes pasaulē, ir jārada datorlingvistiskā infrastruktūra, t.i., jāatbalsta un jāveido datorlingvistiskās ražotnes (uzņēmumi, iestādes), kuras projektē, izstrādā, ražo un tirgo visu veidu programmproduktus, kas speciāli paredzēti konkrētās valodas darbināšanai datoros. Eiropas Savienības XIII ģenerāldirektorātā deviņdesmito gadu sākumā tika izstrādāti ieteikumi datorlingvistikas infrastruktūras attīstībai Eiropas valstīs [1].
Saskaņā ar šiem ieteikumiem, pirmais datorlingvistikas produktu veids, ir redaktora programmrīki, kas automātiski izlabo rakstības kļūdas, sastāda tekstus ar stingri ierobežotu leksiku un gramatiku, veido tā sauktos hipertekstus, kurus iespējams lasīt izraudzītajā aspektā, datora atmiņā pārraksta tekstus tieši no grāmatām vai kā citādi palīdz redaktora darbā ar tekstiem. Otrais produktu veids ir dialoga programmrīki, kas datora lietotājam dotu iespēju latviešu valodā sazināties ar datu bāzēm un interaktīvām elektroniskajām sistēmām. Trešais veids ir tulkotāja programmrīki un mašīntulkošanas sistēmas. Ceturtais veids ir bibliogrāfiskie programmrīki, kas veic tekstu sintaktisko un saturisko analīzi, tekstiem piekārto tematiskus atslēgvārdus un izpilda informācijas meklēšanas pasūtījumus, automātiski seko jaunajai informācijai un to nosūta abonentiem. Piektais produktu veids ir programmrīki, kas analizē mutvārdu runu, no vārdu teksta iegūst rakstītu tekstu un otrādi, pēc runātām komandām darbina transportlīdzekļus vai citus instrumentus.
Papildus šiem Eiropas Savienības ieteikumiem jāmin arī datorizētie multimediju valodas mācīblīdzekļi kā skolniekiem, tā pieaugušajiem, kas apgūst kādu valodu kā svešvalodu. Šī nozare pasaulē ir atsevišķs pētniecības un izstrādņu virziens, kas pazīstams ar akronīmu CALL (Computer Aided Language Learning).
Mūsdienīgu datorlingvistikas rīku izstrādei vispirms ir nepieciešams izveidot valodas resursus elektroniskā formā, t.i., tekstu krājumus, vārdnīcas un digitālus mutvārdu runas pierakstus. Speciālisti uzskata, ka dabīgās valodas datoranalīzei vajadzīgs tekstu krājums elektroniskā formā, kas satur vismaz 150 miljonus vārdlietojumu. Jāpiebilst gan, ka šis vērtējums radies, balstoties uz angļu valodas pieredzi, un nav izslēgts, ka fleksīvām valodām būtu vajadzīgs vēl lielāks tekstu masīvs.
LU Matemātikas un informātikas institūta Mākslīgā intelekta laboratorijā pirmie eksperimenti datorlingvistikā tika uzsākti 80. gadu beigās, kad tika izstrādātas arī dažādas rekomendācijas un tehniskie līdzekļi latviešu valodas lietošanai datoros [2]. 90. gadu sākumā tika izstrādāta latviešu valodas morfoloģijas automatizēta sistēma [3 - 4], izveidotas vairākas specializētas elektroniskās vārdnīcas un radītas citas sistēmas, kas nepieciešamas datoru interfeisu izveidei latviešu valodā. Valodas resursu marķēšanai pasaulē ir izstrādāta speciāla marķēšanas valoda SGML (Standard Generalized Markup Language) [5], kas ir apstiprināta par starptautisku standartu ISO 8879. Tomēr ne visi valodas resursi, īpaši agrāk izstrādātie, ir marķēti atbilstoši standartam. Bieži vien arī paši izstrādātāji nav pilnībā pārliecināti par esošā resursa saturu, un, to nododot (vai pārdodot) citiem rodas vēl lielākas problēmas. Eiropas Savienības valstis 1995. gadā nodibināja "Eiropas valodu resursu asociāciju" (European Language Resources Association, ELRA), kuras galvenais uzdevums ir veikt Eiropas Savienības valstu valodu resursu vērtēšanu un marķējumu pārbaudi, kā arī izstrādāt vērtēšanas metodes. ELRA tika veidota ar Eiropas Savienības finansiālu atbalstu, paredzot, ka nākotnē tā kļūs par patstāvīgu saimnieciskā aprēķina uzņēmumu. Pašreiz nepastāv pilnīgi detalizēti standarti, kurus ievērotu visi resursu izstrādātāji, lai gan neviens neiebilst pret standartu ieviešanu. Esošie standarti un dažādos projektos izstrādātās vadlīnijas galvenokārt tiek izmantotas rekomendāciju līmenī, un izstrādātāji tās ne vienmēr ievēro pilnībā.
Tālākai mūsdienīgu latviešu valodas pētījumu veikšanai ir absolūti nepieciešams īsā laika periodā ievadīt datoros pēc iespējas vairāk tekstu latviešu valodā un iezīmēt (marķēt) tos atbilstoši starptautisko standartu prasībām. Nepieciešams nodrošināt šo tekstu un pārējo materiālu glabāšanu datoru tīklos visiem speciālistiem pieejamā veidā. Tikai pēc šāda liela apjoma darba paveikšanas varēs runāt par mūsdienīgiem latviešu valodas pētījumiem.
Izveidotās latviešu valodas datu bankas vienlaicīgi kalpos arī par pamatfondu automatizētai zināšanu sintēzei, tādējādi radot nepieciešamos priekšnosacījumus mākslīgā intelekta sistēmu (t.sk. mašīntulkošanas) attīstībai latviešu valodā. Savukārt tikai augsti intelektuālu datorsistēmu attīstība var nodrošināt latviešu valodas eksistenci nākotnes datorizētajā pasaulē. Tāpat kā šodien ir izzudušas valodas, kurās netika savlaicīgi apgūta (ieviesta) iespiedtehnika, tā nākotnē varēs pastāvēt tikai tās valodas, kurām būs savlaicīgi radīti datorfondi un izstrādātas mākslīgā intelekta sistēmas.
Mūsdienīga latviešu valodas datorfonda radīšana ietver vismaz trīs atšķirīgus aspektus: pirmkārt, vajadzīgs tehniskais un programmatūru nodrošinājums, otrkārt, vajadzīga šī fonda valodnieciskā aprūpe, un, treškārt, datorfondam ir jāatspoguļo gan valodas vēsturiskā attīstība, gan arī mūsdienu reālā pasaule, tāpēc tā satura izvēle ir arī kultūrsocioloģiska problēma.
Mūsdienās lielākā daļa iespieddarbu tiek sagatavota ar datoru palīdzību, tāpēc tekstu ierakstīšanas process elektroniskā formā notiek jau pirms iespieddarba iznākšanas no tipogrāfijas. Būtu izdevīgi, ja, veidojot datorfondu, varētu sadarboties ar izdevniecībām un saņemt jau izdevniecību sagatavotos tekstus. Tomēr izdevniecību komercintereses bieži vien nesaskan ar šādu pieeju, tāpēc mūsdienu tekstu uzkrāšana datorfondā varētu kļūt par juridiski sarežģīti risināmu problēmu. Vispirms nepieciešama latviešu valodas elektronisko tekstu krājumu apzināšana un tipveida juridisko dokumentu izstrāde. Diemžēl jāatzīst, ka Latvijā nav gatavu speciālistu, kas varētu šo darbu veikt, jo te būtu nepieciešams apvienot filoloģiskās un juridiskās zināšanas. Tāpēc šī darba izpilde var būt ilgstošs process. Tālāk nepieciešama metodikas un kritēriju izstrāde tekstu atlasei no izdevniecībām, kas nodrošinātu datorfondu ar kvalitatīviem tekstiem visos aspektos, nevis aizpildītu to ar mūsdienu ''sēnalu literatūru'', īpaši tulkojumos. Pēc tam jāveic metodikas un tehnoloģiju izstrāde dažādu elektronisko tekstu konvertēšanai uz kopēju glabāšanas formātu, jo katra izdevniecība var izmantot atšķirīgu tehnoloģiju savu iespieddarbu sagatavošanai. Tieši sarežģīti risināmo juridisko jautājumu dēļ pagaidām datorfonda izveidei netiek izmantoti mūsdienu teksti, bet tas noteikti būs jādara nākotnē.
Tekstu ievadīšana datoros LU Matemātikas un informātikas institūta Mākslīgā intelekta laboratorijā tika uzsākta jau astoņdesmito gadu beigās, sākot ar atsevišķām Latviešu tautas ticējumu un E. Glika tulkotās Bībeles nodaļām [6]. Līdz 1996. gadam tekstu ievadīšana notika, galvenokārt tekstus pārrakstot datorā ar klaviatūras palīdzību. Pēdējo gadu laikā ir izstrādāta pietiekoši efektīva tekstu automatizētas ievadīšanas sistēma arī latviešu valodas tekstiem, izmantojot skeneri un burtu optiskās atpazīšanas programmu Recognita 4.0, kas kvalitatīva oriģināla gadījumā ļauj sasniegt 98,5 % precizitāti. Tas nozīmē, ka katrā lappusē nākas izlabot 5 - 6 burtus vai citas zīmes. Tomēr ideālas kvalitātes teksti ir reta parādība, tāpēc reāli nākas labot vismaz 10 un vairāk zīmju lappusē.
Izveidoto elektronisko tekstu krājumu nepieciešams arī marķēt (pievienot dažādas iezīmes), lai varētu veikt valodas automatizētu analīzi. Varētu apskatīt četrus marķēšanas līmeņus: 1. strukturālā jeb SGML marķēšana, kad iezīmējam katra teikuma, rindkopas u.c. struktūru sākumu un beigas; 2. morfosintaktiskā - aiz katra vārda jānorāda visi tā gramatiskie raksturojumi; 3. sintaktiskā - teikuma struktūras un teikuma locekļu identifikācijas raksturojumi, 4. semantiskā - kad aiz katra vārda (kā arī idiomām un frazeoloģismiem) norāda visus tā sematiskos raksturojumus. Ar latviešu valodas tekstu marķēšanu nodarbojas LU MII Mākslīgā intelekta laboratorijā, pašreiz ir izveidots apmēram 10 miljonu vārdlietojumu liels tekstu korpuss un no tā aptuveni 4 milj. vārdlietojumu ar pirmā līmeņa marķējumu [7-10]. Tiek izstrādāta programmatūra otrā līmeņa daļēji automatizētai marķēšanai, un tiek veidots eksperimentāls morfosintaktiski marķēts latviešu valodas tekstu korpuss. Latviešu valodas sintaktiskā un semantiskā līmeņa marķēšanas metodes pagaidām ir tikai teorētisko pētījumu līmenī.
Pārējie teksti (ap 6 milj. vārdlietojumu) ir HTML (Hyper Text Markup Language) marķēti, un tie ir pieejami internetā. HTML marķējumā atšķirībā no SGML marķējuma nav paredzēts atzīmēt katra teikuma sākumu un beigas, bet gan tikai rindkopu robežas. Šādā veidā internetā ir pieejami R. Blaumaņa, Brāļu Kaudzīšu, Raiņa, A. Deglava u.c. latviešu literatūras klasiķu darbi (sk. http://www.ailab.lv/Teksti.htm). Jāatzīmē arī, ka pēdējos gados ir strauji audzis dažādu organizāciju internetā ievietotās informācijas apjoms, un tādējādi palielinās elektroniski pieejamo tekstu daudzums un dažādība. Pēc aptuvena vērtējuma, kopā ar internetā atrodamajiem tekstiem, pašreiz latviešu valodas teksti elektroniskā formā ir pieejami vairāk nekā 30 miljonu vārdlietojumu apjomā. Tātad aptuveni piektdaļa no vajadzīgā, bet tikai neliela daļa ir SGML marķēta, tādēļ to izmantošanai valodas datorfondā vēl būs jāiegulda samērā liels darbs [11].
Norisinās arī vienlaicīga paralēlo korpusu veidošana. Paralēlie korpusi pasaulē plaši tiek izmantoti gan kā tulkotāju palīglīdzekļi, gan arī mašīntulkošanas zinību bāzu veidošanai. Izveidots Platona "Valsts" paralēlo tekstu krājums ar 14 citām Eiropas valodām, ieskaitot sengrieķu valodu. Eiropas Savienības kopakcijas "TELRI" (Trans - European Linguistic Resources Infrastructure) ir izdots kompaktdisks ar šo paralēlo tekstu krājumu un tulkošanas ekvivalentu piemēriem. Paralēlā korpusa izveidei datorā ievadīts arī Dž. Orvela "1984", kā arī H. Celmiņas darbs "Sievietes padomju cietumos" un tā tulkojums angļu valodā.
Vēsturisko tekstu datu bāzes izveides gaitā ir pabeigta nozīmīgāko 17. gs. publicēto darbu ievadīšana datorā - E. Glika Bībele, J. Manceļa Sprediķu grāmata, K. Fīrekera, J. Reitera, G. Elgera oriģināldarbi un tulkojumi [12]. Pakāpeniski tiek īstenots šī projekta cits aspekts - pilnīga 17. gs. tekstu analīze un statistiska apstrāde ar personālo datoru, padziļināta vēsturisko īpatnību analīze [13]. Ievadīti arī "Tā Vecā Stendera Augstas Gudrības Grāmata no Pasaules un Dabas tagad no jauna pārlūkota un vairota no tā jaunā Stendera", izdota Jelgavā 1796. gadā, un V. Gētes "Fausts" - Raiņa tulkojumā, izdots Rīgā 1898. gadā.
Datorfonda attīstības nākamais posms ir morfoloģiskā marķēšana, t.i., attiecīgo vārdu raksturojošās morfoloģiskās informācijas novietošana aiz katra vārda. Šī darba automatizācijai parasti tiek izstrādāta programmatūra, kas katrai tekstā sastaptajai vārdformai pieraksta informāciju par visiem iespējamajiem šīs vārdformas lietojumiem. Pašreiz, balstoties uz agrāk izstrādātajām morfoloģiskās un morfēmiskās analīzes programmām [14 - 15], šāda marķēšanas programma tiek izstrādāta arī latviešu valodai [11].
Marķējot tiek izmantoti starptautiskie apzīmējumi, kas ir izstrādāti, pamatojoties uz angļu valodu, un standartizēti (projekta MULTEXT-EAST (Multilingual Text Tools and Corpora for Central and Eastern European Languages) ietvaros). Tie ir piemērojami katrai valodai individuāli, pievienojot konkrētajai valodai esošās morfoloģiskās kategorijas un atmetot valodai neesošās morfoloģiskās iezīmes. Marķējot tekstu, tiek noteikta vārda vārdšķira un attiecīgā morfoloģiskā informācija. Katrai vārdšķirai ir definēts savs iezīmju skaits un to novietojums iezīmju rindā, ar izņēmumu divdabjiem, kuri tiek analizēti kā darbības vārdi ar attiecīgu paplašinājumu.
Piemēri:
1) Substantīvs tiek analizēts pēc tiem pašiem principiem, kā to dara skolu un augstskolu gramatikās. Problēmas rodas dažiem lietvārdiem nosakot dzimti. Saistībā ar kontekstu ir iespējams noteikt dzimtes kategoriju lietvārdam tūļa, piem., meitene ir tūļa vai zēns ir tūļa, bet ārpus konteksta tas nav iespējams. Atšķirība pastāv tikai vienskaitļa datīvā tūļam vai tūļai, tāpēc tika ieviests apzīmējums b, kurš norāda, ka tas ir t.s. kopdzimtes vārds, kas palīdzētu nelatviešiem labāk orientēties valodas sistēmā. Locījumu sarakstā nav iekļauts instrumentālis, jo tas tiek izteikts ar prievārdu, bet marķējums paredz iezīmi aiz katra vārda.
Rīgai
lietvārds
tūļa
Ja lietvārds ir atgriezenisks, tas tiek norādīts deklinācijas vietā.
2) adjektīvu analīze neatšķiras no mums pierastās analīzes formas;
zaļš
3) pronomeniem tiek saglabāti analīzes ierastie principi. Daļai vietniekvārdu dzimtes un skaitļa kategorijā ir ieviests apzīmējums n. Apzīmējums norāda, ka vietniekv. nav dzimtes un/vai skaitļa kategorija, piem., vietniekvārda kas. Ja tas netiktu atzīmēts, tad kategoriju kārtība tiktu izjaukta, kas radītu pārpratumus; mēs
4) skaitļa vārdu morfoloģiskajā analīzē ir saglabāti ierastie principi;
pieci
5) Verbu analīzes forma ir nedaudz vienkāršota - netiek uzrādīti saliktie laiki un analītiskās formas.
esmu
izdarījis
Divdabis līdz 3. iezīmei tiek analizēts kā verbs;
ziedējis
6) apstākļa vārdiem tiek noteikta gradācija un iedalījuma grupa. Arī apst. v. pie gradācijām ir ieviests apzīmējums n, kas norāda, ka dotajam apst. v. tāda nepastāv; drusku
7) prievārdiem nosaka, vai tie ir prepozīcijas vai postpozīcijas, kā arī rekciju (kādu locījumu prepozīcija pieprasa sekojošajai vārdšķirai); dēļ
8) saikļu analīze neatšķiras no ierastās; tajā nosaka saikļa iedalījuma grupu un uzbūvi (saliktu, vienkāršu, atkārtotu); un
9) izsauksmes vārdiem tiek noteikta tikai uzbūve; ak
10) īpaši tiek atzīmētas abreviatūras (atsevišķa vārda vai vārdu savienojuma saīsinājums, piem., u.tml. - un tamlīdzīgi); DNS
11) partikulām tiek noteikta tikai uzbūve: gan jau nu
Valodas datorfondam saniedzot jau minētos 150 milj. vārdlietojumu, varētu sākt veidot leksikonu no jau ievadītajiem tekstiem, un šādi izveidots leksikons vispilnīgāk atspoguļotu valodā lietoto vārdu krājumu, kā arī ļautu analizēt visas sastopamās lietojumu nozīmes un gramatiskās formas. Tomēr, kamēr datorfonds tikai veidojas, pētniekiem ir svarīgi izmantot savā darbā pēc iespējas lielāku vārdu krājuma dažādību. Tāpēc datorfondā atsevišķi tiek veidots vārdnīcu krājums jeb datorleksikons, datorā ievadot agrāk tipogrāfiski izdotās vārdnīcas. Īpaši svarīgi ir ievadīt dažādas skaidrojošās vārdnīcas ar dažādu vārdu krājumu, kā, piem., svešvārdu vārdnīcas, un vēsturiski dažādos periodos izdotas vārdnīcas. Daļēji datorleksikons tiek veidots arī no jau ievadītajiem tekstiem, kā, piem., veicot latviešu valodas vēsturisko tekstu apstrādi, tiek veidoti elektroniskie tezauri E. Glika tulkotajai Bībelei un G. Manceļa "Sprediķu grāmatai" un veikti seno tekstu pētījumi [12, 16].
Deviņdesmito gadu pirmajā pusē datoros tika ievadītas vairākas vārdnīcas: E. Soidas un S. Kļaviņas "Latviešu valodas inversā vārdnīca" R., 1970; "Latviešu valodas vārdnīca", R., 1987; E. Grīnbergas u. c. "Latviešu valodas sinonīmu vārdnīca", R., 1972; "Angļu - latviešu - krievu frazeoloģijas vārdnīcas", R., 1977; J. Baldunčika "Anglicismi latviešu valodā", R., 1994, kā arī vairākas terminoloģijas vārdnīcas. Skaitļošanas tehnikas terminu vārdnīca ar tulkojumiem angliski un krieviski un paskaidrojumiem latviešu valodā, kas satur aptuveni 400 terminus. Dabas aizsardzības terminu vārdnīca ar tulkojumiem angliski un krieviski, kas satur ap 800 terminu. Lietvedības terminu vārdnīca ar tulkojumiem krieviski - ap 4000 terminu, no tiem aptuveni 3000 ir atrasti arī angliskie ekvivalenti. Kulinārijas terminu vārdnīca satur ap 1350 vārdu un vārdu savienojumu ar tulkojumiem angliski un krieviski. "Valodniecības terminu vārdnīca" (R., 1964) ar gandrīz 3000 vārdiem un to tulkojumiem krieviski. Tika izveidotas arī vairākas elektroniskās vārdnīcas mācību nolūkos, latviešu valodas apguvei. Pamatvārdu vārdnīca satur 1450 vārdus ar tulkojumiem angļu valodā un krievu valodā. Šī vārdnīca ir kompilācija no divām vārdnīcām: O. Bušs, J. Baldunčiks "1000 vārdu" un M. Soikāne - Trapāne "Latviešu valodas pamata un tematisks vārdu krājums". No pēdējās ievadīti tikai pamatvārdi, arī aptuveni 1000. Abās vārdnīcās apmēram puse vārdu sakrita, daļai vārdu krievu tulkojums ir pievienots no citām vārdnīcām. Pamatvārdu vārdnīca ir pieejama internetā kā latviešu valodas mācību līdzeklis http://ai1.mii.lu.lv/BA/bilabc.htm . Tā ir paredzēta kā palīglīdzeklis latviešu valodas apmācībai, papildinot pamatvārdu vārdnīcu.
No B. Metuzāles - Kangeres "Latviešu valodas atvasinājumu vārdnīcas" [18] ir izveidota elektroniska latviešu valodas morfēmu vārdnīca, kas kalpo par pamatu latviešu valodas morfēmiskās analīzes modeļa izstrādei.
Izveidots Latviešu valodas skaidrojošās vārdnīcas elektroniskais modelis, kas pieejams internetā http://ai1.mii.lu.lv/vardnica.htm [19].
Uzsākta latviešu valodas datorleksikona izveide mašīntulkošanas vajadzībām, katram vārdam, vārdformai vai vārdu savienojumam pievienojot iespējami plašu morfoloģisko informāciju un nelielu sintaktisko informāciju [20 - 21]. Pašreiz šis dartorleksikons satur aptuveni 25 000 ierakstus ar atsevišķiem vārdiem un vārdu savienojumiem.
1998. gadā sadarbībā ar Tulkošanas un terminoloģijas centru un ar Eiropas Savienības finansiālu atbalstu LU MII Mākslīgā intelekta laboratorijā tika izveidota terminoloģijas datu bāze ar 115 000 terminiem latviešu valodā un to tulkojumu ekvivalentiem [22]. Šī datu bāze satur desmit gadu laikā izdotos un Zinātņu akadēmijas terminoloģijas komisijā apstiprinātos terminus. Tā ir pieejama internetā http://www.ailab.lv/termini.htm.
1999. gada projektu konkursa rezultātā Latviešu Fonds (Kanāda) piešķīra atbalstu Mīlenbaha - Endzelīna Latviešu valodas vārdnīcas datormodeļa izveidei, kas saturēs vārdnīcas pamatizdevuma četru sējumu pilnus tekstus. K. Mīlenbaha "Latviešu valodas vārdnīca" tiek ievadīta datorā, saglabājot visas oriģinālā redzamās rakstu zīmes.
Latviešu valodas mācīblīdzekļu izveide internetā tika uzsākta 1997. gadā ar Sorosa fonda - Latvija atbalstu, izveidojot informācijas lapas ar skaidrojumiem angļu valodā, kā arī ievietojot dažādas latviešu - krievu un latviešu - angļu vārdnīcas, sk. http://ai1.mii.lu.lv/valoda.htm. Vienlaicīgi šim mācību līdzeklim tika izveidots arī latviešu folkloras krājums elektroniskā formā, kas satur tautasdziesmu izlasi, kā arī "Latviešu tautas ticējumu" un "Latviešu pasaku un teiku" tekstus pilnā apjomā.
Pēc Latviešu valodas apguves valsts programmas pasūtījuma ir izstrādāts latviešu valodas multimediju mācīblīdzeklis iesācējiem "Ko tu teici?" [23], kas ir pieejams internetā http://www.lvavp.lv/koteic.htm. Šajā mācīblīdzeklī ietvertas cittautiešiem nepieciešamākās 17 tēmas ar daudziem interaktīviem vingrinājumiem, krāsainiem kustīgiem attēliem un izrunas paraugiem. Izveidoti arī citi latviešu valodas mācību palīglīdzekļi cittautiešiem [24 - 26].
Sadarbībā ar Latvijas izglītības informatizācijas sistēmu ir izstrādāts latviešu valodas kurss vidusskolām internetā, kas satur dažādus interaktīvus vingrinājumus un uzdevumus ar automātisku zināšanu pārbaudi, sk. http://www.liis.lv/latval/ , kā arī latviešu zīmju valodas multiplikāciju vārdnīca ar vingrinājumiem, http://www.liis.lv/zimval/. Tiek veidota latviešu valodas izrunas vizuālā apmācības sistēma cilvēkiem ar dzirdes traucējumiem, kas ļaus salīdzināt biežāk lietojamo vārdu izrunas spektrogrammas ar apmācāmā mikrofonā ierunāto skaņu spektrogrammu. Tiek veidota arī tipisko stila kļūdu datu bāze un programmatūra teksta analīzei un šo kļūdu norādei, analizējot tekstu.
No mācīblīdzekļiem izstrādātajiem vārdu, frāžu un dialogu izrunas paraugiem tika izveidots neliels (ap 2000 vārdu) latviešu valodas runas korpuss, uz kura bāzes tiek izstrādāta metodika pilnīgāka latviešu valodas runas korpusa izveidei. No šiem materiāliem tiek veidota arī latviešu valodas fonēmu datu bāze, kas nākotnē būs nepieciešama dažādu runas sistēmu izstrādei. Runas korpusa izveide un marķēšana paredz izstrādāt metodiku, algoritmus un programmnodrošinājumu šo korpusu apkalpei. Pašreiz ir izveidota latviešu valodas īpašvārdu izrunas datu bāze, kura šī projekta izpildes pirmajā gadā tiks papildināta ar atsevišķu morfēmu izrunas pierakstiem. Lai sekmētu ātrāku datu uzkrāšanu, nepieciešams pilnveidot fonētiskā pieraksta datu bāzes automatizētās apkalpes programmnodrošinājumu.
Eiropas Savienības projekta Onomastica - Copernicus. Multi - language Pronunciation Dictionary in Central and Eastern European Countries ietvaros izveidota latviešu valodas īpašvārdu izrunas vārdnīca (datu bāze), kurā iekļauti aptuveni 250000 latviešu valodā sastopamie īpašvārdi [27-29]. Latviešu valodas īpašvārdu izrunas vārdnīca (datu bāze) ir ietverta kompaktdiskā Onomastica - Copernicus Database kopā ar vēl 6 valodu (čehu, igauņu, poļu, slovāku, slovēņu, ukraiņu) īpašvārdu izrunas datu bāzēm. Īpašvārdu izrunas vārdnīca satur vārdus, kuriem pievienots to izrunas pieraksts starptautiskajā fonētiskajā alfabētā, kā arī informāciju par šī īpašvārda nozīmi un pārbaudes līmeni. Informācija par īpašvārda nozīmi satur norādi, pie kuras grupas attiecīgais vārds pieder - personvārds, uzvārds, pilsētas nosaukums, apdzīvotas vietas nosaukums, ielas nosaukums, iestādes nosaukums, dabas objekta nosaukums. Informācija par kvalitātes līmeni tiek apzīmēta ar I , II un III , kur III norāda, ka dotā vārda izruna ir ģenerēta datorā pēc analoģijām un nav pārbaudīta, II - dotā vārda izrunu ir pārbaudījis speciālists - leksikogrāfs, I - dotā vārda izrunu ir pārbaudījuši vairāki speciālisti vai arī (personvārda vai uzvārda gadījumā ) tā ir pārbaudīta, runājot ar tā "īpašnieku". Šī izrunas vārdnīca tiks sagatavota kompaktdiska veidā un tiks izplatīta kā komerciāls produkts. Vārdnīca satur ap 150 000 Latvijā sastopamo uzvārdu, personvārdu pēc K. Siliņa " Latviešu personvārdu vārdnīcas ", apdzīvoto vietu nosaukumu, māju vārdus, ielu nosaukumu, preču nosaukumu, Latvijas ūdenstilpņu un ūdensteču nosaukumu, kā arī iestāžu un firmu nosaukumu.
Šī darba turpināšanai tiek veidota latviešu valodas morfēmu fonētiskā datu bāze, kas nākotnē tiks izmantota tādu sistēmu izstrādei, kas rakstītu tekstu pārveido runā. Turklāt tiek plānota latviešu valodas fonēmu datu bāzes izveide, kas būs nepieciešama runas atpazīšanai. Runas korpusa izveidei un marķēšanai tika izstrādāts īss latviešu valodas dialektu apraksts, kurā sniegtas ziņas par konkrētā dialekta izplatību Latvijas teritorijā, tajā sastopamajām fonētiskajām, morfoloģiskajām, sintaktiskajām un leksiskajām īpatnībām. Doti arī izlokšņu paraugi. Ir izstrādāti latviešu valodas izrunas paraugi: biežāk lietotās latviešu valodas frāzes (20) un latviešu valodā biežāk lietotie vārdi (80). Izrunas paraugiem pievienots arī neliels latviešu literārās valodas fonētikas apraksts. Tajā sniegtas ziņas par latviešu literārās valodas patskaņiem, divskaņiem, līdzskaņiem, zilbi, uzsvaru, zilbes intonāciju, skaņu mijām u.tml. Informācija ievietota internetā - http://ai1.mii.lu.lv/fon/fonetika.htm un http://ai1.mii.lu.lv/dialekti/dialekti.htm.
Izveidota latviešu valodas izrunas datu bāze, kas satur ap 2000 ierakstu, gan atsevišķu vārdu, gan frāžu un teikumu veidā. Pavisam izrunas datu bāzē ietverti 15 cilvēku (5 vīriešu, 7 sieviešu un 3 bērnu ) ierunātie teksti. Jaunākā informanta vecums ir 4 gadi. Uzsākta fonēmu bibliotēkas izveide. Tajā ietilpst no vārdiem segmentēti fonēmu izrunas varianti (pašlaik aptuveni 80 fonēmu varianti). Fonēmas un fonēmu varianti tika iegūti, ieskaņojot vārdus un pēc tam segmentējot nepieciešamo fragmentu. Segmentējot fonēmas, tika ņemts vērā gan labais, gan kreisais konteksts un arī fonēmas atrašanās vieta. Piemēram, fonēmai a tika segmentēti 4 varianti: fonēma [a] vārda sākumā [apse&], fonēma [a] uzsvērtā zilbē [passe], fonēma [a] neuzsvērtā zilbē [pasłaka(] un fonēma [a] vārda beigās [lappa(]. Tika segmentēti arī divskaņi (pašlaik, segmentējot garos patskaņus un divskaņus, nav ņemta vērā zilbes intonācija), diftongiskie savienojumi un līdzskaņi. Turpinās līdzskaņu segmentācijas pētījumi, t.i., tiek pētīts, kādi varianti iespējami atkarībā no sekojoša vokāļa.
Uzsākta latviešu valodas runas sintēzes sistēmas izstrāde. Par runas sintēzes metodi tika izvēlēta skaņu saķēdēšana. Tas nozīmē, ka tiek sagatavoti skaņu fragmenti, kurus, sintezējot runu, nosūta uz izvadierīci vajadzīgajā secībā. Tiek veikti eksperimenti runas sintēzē: ar transkribēšanas sistēmas palīdzību pārveidotie vārdi tiek izrunāti. Katra transkripcijā iegūtā simbola (fonēmas apzīmējuma) izruna tiek meklēta fonēmu bibliotēkā [30]. Fonēmas tiek savienotas, un vārds tiek izrunāts.
Resursu attīstība. Izveidotais tekstu korpuss pašreiz ir pietiekams tikai tam, lai varētu sākt izstrādāt automatizētus programmlīdzekļus latviešu valodas tekstu morfosintaktiskajai marķēšanai un tuvākajā nākotnē sākt veidot automatizēti (varbūtiski, bet ar augstu precizitāti) marķētu latviešu valodas tekstu korpusu. Šādam korpusam sasniedzot jau minētos 150 miljonu vārdlietojumu, vajadzētu kļūt par pamatu kā mākslīgā intelekta sistēmu izstrādei, tā arī turpmākiem latviešu valodas pētījumiem. Nākošais solis datorfonda attīstībā būs sintaktiskās un semantiskās marķēšanas metožu izstrāde. Daļēji šāda veida marķēšana ļoti ierobežotā apjomā jau ir uzsākta, izstrādājot atsevišķas mašīntulkošanas vārdnīcas, piem., Apvienoto Nāciju Universitātes projekta "Universālā tīkla valoda" ietvaros, sk. Universālā tīkla valoda", kas paredz 10 gadu laikā izveidot eksperimentālu līdzekli internetā, kas ļautu jebkuru informāciju lasīt savā dzimtajā valodā. Neskatoties uz mašīntulkošanas sistēmu izveides lielo dārdzību, jau šodien internetā jebkuram lietotājam ir pieejamas vairākas eksperimentālas sistēmas, sk., piem., http://www.systran.org, kur lietotājs var iekopēt tekstu vienā no sešām valodām un saņemt tulkojumu citā. Agrāk vai vēlāk arī latviešu valodai ir jāiesaistās kādā no šādiem interneta tulkošanas projektiem, lai jebkurš varētu vismaz vispārējos vilcienos saprast svešvalodās pieejamo informāciju, kā arī lai internetā latviski ievietotā informācija būtu pieejama lielākam skaitam interesentu. Jāsaprot arī, ka esošās mašīntulkošanas sistēmas pieļauj dažādas neprecizitātes un šo sistēmu pilnveide turpināsies vēl ilgstoši, varbūt pat visu nākamo gadsimtu.
Bibliogrāfiskie programmrīki. Latvijas bibliotēkās pašreiz sekmīgi tiek izmantoti grāmatu elektroniskie katalogi ar informācijas meklēšanas sistēmām un pieslēgumu internetam. Lielākais darbs tuvākajai nākotnei ir pilnīga grāmatu uzskaite elektroniskajos katalogos, kas jāveic katrai bibliotēkai. Tālākā nākotnē tiks veidoti arī elektroniskie tekstu krājumi, kas ļaus lasīt grāmatu vai tās fragmentus internetā no jebkuras vietas pasaulē, un lasītāju parasti maz interesē, kura konkrētā bibliotēka ir sagatavojusi šo tekstu.
Mutvārdu runa. Vispirms nepieciešams pabeigt moduļa teksts - runa eksperimentālo versiju un uzsākt tā testēšanu un pilnveidi, pievienojot dažādas intonāciju un izteiksmes iespējas. Lielākā daļa pašreiz pasaulē esošo sistēmu, kas ļauj atskaņot tekstu runātā valodā vēl nav sasniegušas pilnību, tādēļ var gaidīt, ka turpmākajos gados šo sistēmu izstrāde attīstīsies un būs daudz darba, piemērojot latviešu valodas sistēmai dažādos jauninājumus. Latviešu valodas mutvārdu runas atpazīšanā pašreiz ir tikai uzsākti pirmie teorētiskie pētījumi, tāpēc nav iespējams paredzēt, pēc cik gadiem mums būs iespēja strādāt ar reālu sistēmu runa - teksts, kas atvieglotu arī autoru darbu.
Mašīnmācīšanās būs tas ceļš, kādā mākslīgā intelekta sistēmas iegūs zināšanas par latviešu valodu un pēc tam arī par konkrētiem objektiem. Pašreiz ir veikti tikai pirmie soļi šīs nozares teorētisko atziņu izstrādē [34 - 37], bet, palielinoties elektroniski pieejamo tekstu apjomam, palielinās arī datora iespējas statistiski apstrādāt šos tekstus pēc visdažādākajiem parametriem un ar attiecīgas programmatūras palīdzību "apmācīties" vispirms jau dažādu vārdu un valodas konstrukciju lietošanā. Vēlāk tiks izstrādātas arī sistēmas semantisko zināšanu apguvei.
Zinību bāzes pasaulē pašreiz tiek veidotas dažādās šaurās nozarēs kā sistēmas, kas satur ne tikai faktoloģisko materiālu kā datu bāzes, bet arī zināšanas konkrētajā priekšmetā. Galvenokārt tās ir ja - tad tipa zināšanas, t.i., programmsistēma spēj izlemt (vai dot padomu), kā rīkoties visās paredzētajās situācijās un to kombinācijās. Zinību bāzu izveide ir darbietilpīgs process, un svarīgi būs izstrādāt sistēmas, kas ļauj izmantot latviešu valodu informācijas ieguvei no dažādām internetam pieslēgtām zinību un datu bāzēm. Daļēji šī problēma jau tiek risināta, izstrādājot universālo tīkla valodu. Domājams, ka tādā veidā ar laiku tiks nodrošināta iespēja ikvienam cilvēkam iegūt informāciju no interneta savā dzimtajā valodā neatkarīgi no tā, kādā valodā šī informācija ir ievietota internetā. Protams, to varēs izdarīt tikai tajās valodās, kurās attiecīgās sistēmas būs savlaicīgi izstrādātas. Līdz ar to būs nodrošināta pieeja pasaules kultūras bagātībām, un nostiptināsies uzskats, ka tas, kas nav internetā, tas nepastāv vispār. Tāpēc mūsu uzdevums ir ievietot internetā pēc iespējas vairāk informācijas par Latviju un latviešu kultūru, veidojot kā datu tā zinību bāzes. Tādējādi jāapskata kultūra kā mākslīgā intelekta problēma, t.i., katra kultūras problēma ir "jāiedzīvina" mākslīgā intelekta sistēmās, jo lielākas izredzes izdzīvot būs tai kultūrai, kura būs pēc iespējas plašāk pārstāvēta datorsistēmās.
Datorlingvistikas rīku izstrāde latviešu valodai līdz šim norisinās nepietiekošā tempā. Pilnīgi skaidrs, ka XXI gadsimta laikā izšķirsies daudzu valodu tālākās eksistences jautājums, un atrisinājums galvenokārt būs atkarīgs no mākslīgā intelekta sistēmām, t.i., vai tās spēs operēt ar konkrēto valodu, vai nē.
Izveidotās latviešu valodas datu bāzes kalpos par pamatu datorlingvistikas rīku izstrādei un attīstībai nākotnē, kā arī automatizētai zināšanu sintēzei, tādējādi radot nepieciešamos priekšnosacījumus mākslīgā intelekta sistēmu (t.sk. mašīntulkošanas) attīstībai latviešu valodā. Savukārt tikai augsti intelektuālu datorsistēmu attīstība var nodrošināt latviešu valodas eksistenci nākotnes datorizētajā pasaulē. Tāpat kā šodien ir izzudušas valodas, kurās netika savlaicīgi apgūta (ieviesta) iespiedtehnika, tā nākotnē varēs pastāvēt tikai tās valodas, kurām būs savlaicīgi radīti datorlingvistikas rīki, datorfondi, zinību un datu bāzes, kā arī izstrādātas mākslīgā intelekta sistēmas, kas ļaus katram cilvēkam sazināties ar datorsistēmām savā dzimtajā valodā. Un, ja nu kādā valodā šādas sistēmas nebūs izveidotas, tad nākamā paaudze biežāk lietos kādu svešvalodu ikdienas dzīvē, kur pakalpojumus sniegs galvenokārt datorsistēmas, vai nu tieši vai ar interneta starpniecību.
1. Danzin A., Towards a European Language Infrastructure. Report for the Comission of the European Communities (DG XIII), 31 March 1992, Doc. No 5210/92, 62 p.
2. Valoda un tehnika Eiropā 2000. Semināra materiāli. (red. A. Spektors) Rīga, 1994, 62 lpp.
3. Greitāne I., Latviešu valodas lokāmo vārdšķiru locīšanas algoritmi. - LZA Vēstis. A., 1994, Nr. 1, 32. - 39. lpp.
4. Greitāne I., Computer Implementation of the Genitive in Latvian. - Lund University, Dept. of Linguistics, Working Papers 43, 1995, pp. 9 - 20.
5. Goldfarb C. F., The SGML Handbook. Clarendon Press, Oxford, 1990, 664 p.
6. Spektors A., Baltiņa M., Latviešu valodas vēsturisko tekstu datu bāzes izveide. - "Valoda un tehnika Eiropā 2000 ", Rīga, 1994, 30. lpp.
7. Spektors A., Latviešu valodas datorfonds. - Baltistica VII Starptautiskais baltistu kongress, Rīga, 1995, 105. - 106. lpp.
8. Spektors A., Latviešu valoda Internetā un datorlingvistikas resursi.- "Latviešu valoda - esamība, vide, konteksti", Rīga, PBLA, 1997, 46 - 53. lpp.
9. Spektors A., Latviešu valodas datorlingvistikas resursi. - "Baltu filoloģija. VIII", LU, Rīga, 1998, 53 - 59. lpp.
10. Borzovs J., Fricnovics G., Spektors A., The Latvian Language and IT&T. - Baltic IT Review, 1997, Nr. 5, pp. 24. - 28.
11. Levāne K., Spektors A., Morphemic Analysis and Morphological Tagging of Latvian Corpus. - In: "Proceedings LREC 2000", Athens, 31 May - 4 June, 2000, (sagatavošanā).
12. Ozoliņa A., 17. gs. tekstu datorfonda izveides programmlīdzekļi. - Baltistica VII Starptautiskais baltistu kongress, Rīga 1995, 83. lpp.
13. Baltiņa M., Vārddarināšanas varianti 17. gs. tekstos. - Baltistica VII Starptautiskais baltistu kongress, Rīga 1995, 136. lpp.
14. Sarkans U., Morphemic and Morphological Analysis of the Latvian Language. - In: " Papers in Computational Lexicography COMPLEX'96. Budapest, 1995, pp. 219 - 226
15. Greitāne I., Datortehnoloģija kā valodas pētīšanas virziens. Konferences "Valodas pētīšanas metodes" tēzes. LU, 1997, 17. - 18. lpp.
16. Milčonoka E., Daiktavardžių morfologiniai variantai G. Mancelio "Lettische Postill" (1654). - Tēzes konferencei "Jaunųjų kalbininkų konferencija". Viļņa, 1997, 17.-18. lpp.
17. Spektors A., Elektroniskās vārdnīcass. - "Leksikogrāfijas teorija un prakse", Riga, Latviešu valodas institūts, 1997, 36 - 40. lpp.
18. Metuzāle-Kangere B., Latviešu valodas atvasinājumu vārdnīca. H. Buske Verlag, Hamburg, 1985, 392 lpp.
19. Kaugars K., Reinfelds J., Sarkans U., Datorizētas latviešu valodas vārdnīcas radīšana - " Valoda un tehnika Eiropā 2000 ", Rīga, 1994, 24. lpp.
20. Milčonoka E., Vārda raksturojums datorleksikonā. - Baltistica IX Starptautiskais baltistu kongress, Rīga, 2000., (sagatavošanā)
21. Milčonoka E., First Steps in Development of Morphological Classification for Computer - Aided Lexicon of Latvian. - TELRI Newsletter 9, November 1999, pp. 26 - 27.
22. Milčonoka E., Automatizuota latvių kalbos terminų duomenų bazė. - Tēzes konferencei "Lietuvių kalba: tyrėjai ir tyrimai. Kazimiero Jauniaus 150-osioms gimimo ir 90-osioms mirties metinėms paminėti". - Viļņa, 1998, psl. 32. - 33.
23. Āboltiņa I., Programma "Ko tu teici?" starptautiskajā datortīklā Internet, LVAVP informatīvais biļetens "Tagad", 1999, nr. 1, 4. lpp.
24. Āboltiņa I., Priedīte A., Darbības vārdu tabulas, LVAVP, Rīga, 1998, 317 lpp.
25. Āboltiņa I., Latviešu - krievu vārdnīca. - "Palīgā! Mācībgrāmata pieaugušajiem. LAT2. 1. līmenis", Zvaigzne ABC, Rīga, 1998, 149 - 166. lpp.
26. Spektors A., Computer-Aided Language Learning Resources for the Latvian Language. - In "Internationa Conference and Exhibition "Information Technologies and Telecommunications in the Baltic States", Riga, April 15-18, 1998", pp. 234 - 237.
27. Āboltiņa I., Transcribing of Latvian Names by Computerized Grapheme - to - phoneme Rules. - In: Onomastica - Copernicus Research Colloquium, Edinburgh, 1996, pp. 47 - 50.
28. Āboltiņa I., Latviešu valodas īpašvārdu izrunas vārdnīca. Konferences "Valodas pētīšanas metodes" tēzes. LU, 1997, 15. - 16. lpp.
29. Āboltiņa I., Elektroniskā latviešu valodas vietvārdu izrunas vārdnīca. - "Jaunuju kalbiniku konferencija", Lietuviu kalbos institutas, Vilnius, 1997, 3. lpp.
30. Auziņa (Āboltiņa) I., Zilbju robežu modeļi latviešu literāraja valodā, tēzes Pēterburgas univ. konferencei "Ļšīįėåģū ōīķåņčźč č ąźöåķņīėīćčč įąėņčéńźčõ ’ēūźąõ", St. Pēterburgas univ., 1999., 1. lpp.
31. Greitāne I., Development of Machine Translation System for Latvian. - In: The First Conference on Baltic Studies in Europe. Linguistics. Riga, 1995, pp. 33 - 34.
32. Greitāne I., Mašīntulkošanas programma LATRA. LZA Vēstis A., 1996, Nr. 3/4, lpp. 1. - 6.
33. Greitāne I., Machine Translation and Multilingual Resources for Latvian. - In: "TELRI. Proceedings of the Third European Seminar "Translation Equivalence", Montecatini Terme, Italy, October 16 - 18, 1997", Ed. W. Teubert, E. T. Bonelli and N. Volz, pp.79 - 86.
34. Sarkans U., Synthesis of Latvian Linguistic Knowledge. - In: The First Conference on Baltic Studies in Europe. Linguistics. Riga, 1995, pp. 26.
35. J.Barzdins, U.Sarkans. Incorporating Hypothetical Knowledge into the Process of Inductive Synthesis. Lecture Notes in Computer Science, 1996, vol.1160, pp. 156-168.
36. Sarkans U., Mašīnmācīšanās metožu izmantošana latviešu valodas morfēmiskās analīzes projektā. Konferences "Valodas pētīšanas metodes" tēzes. LU, 1997, 16. - 17. lpp.
37. Sarkans U., Mašīnmācīšanas metožu izmantošana latviešu valodas morfēmiskās analīzes projektā. - "Baltu filoloģija. VIII", LU, Rīga, 1998, 43. - 47. lpp.