EN
Faktorēto metožu lietojums angļu-latviešu statistiskajā mašīntulkošanas sistēmā (2009-2012)

Kopš 90. gadu sākuma, kad IBM radīja pirmo statistiskās mašīntulkošanas (SMT) sistēmu Candide, statistisko metožu lietojums automatizētās tulkošanas sistēmās kļuvis par dominējošo pētījumu virzienu pasaulē. SMT pamatideja ir tulkojuma ģenerēšanai izmantot iepriekš radītus tekstus, t.i., tulkošanas sistēma „iemācās” tulkot no iepriekš tulkotiem tekstiem jeb paralēlo tekstu korpusiem.

Latvijā statistiskās mašīntulkošanas pētījumi uzsākti 2005. gadā LZP projekta „Statistisko metožu izvērtējums angļu-latviešu tulkošanas sistēmā” (2005-2008) ietvaros. Projekta mērķis bija izvērtēt statistisko tulkošanas metožu piemērotību tulkošanai latviešu valodā un izstrādāt angļu-latviešu statistiskās mašīntulkošanas sistēmas prototipu.

Pirmās SMT sistēmas (arī LU MII radītā) kā vienīgo zināšanu avotu izmantoja paralēlos tekstu korpusus. Tomēr, kaut arī tekstu korpusu izmēri arvien pieaug, pēdējo gadu pētījumi parāda, ka SMT sistēmu tulkojuma kvalitāte bieži vien ir nepietiekama. Tulkojot valodās ar sarežģītu morfoloģiju un brīvu vārdu kārtu (arī latviešu valodā), SMT sistēmu ģenerētajos tulkojumos izvēlētie vārdi lielākoties ir pareizi, bet to sakārtojums teikumā un izvēlētās locījuma formas lasītājam bieži vien neļauj uztvert teikumā pateikto vai pat atsevišķos gadījumos maldina par tā jēgu.

Lai uzlabotu SMT sistēmas tulkošanas kvalitāti, SMT modeļi tiek papildināti ar lingvistiskajām zināšanām, veidojot tā saucamos faktorētos modeļus, ar kuru palīdzību dators „iemācās” zināšanu kopas (faktorus) par valodu, un ko pēc tam izmanto tulkošanas procesā. LZP projekta „Faktorēto metožu lietojums angļu-latviešu statistiskajā mašīntulkošanas sistēmā” (2009-2012) mērķis ir izvērtēt dažādu faktoru (morfoloģisko īpašību, sintaktisko īpašību, vispārīgās leksikas vārdnīcu un terminoloģisko vārdnīcu) ietekmi uz automatizētas tulkošanas sistēmas kvalitāti un implementēt to pašreizējā statistiskās mašīntulkošanas (SMT) sistēmas prototipā, lai uzlabotu tulkojumu kvalitāti.

Tā kā pētījumi turpinās, šajā lapā publicēts jaunākais tulkošanas sistēmas prototips, kas tiek regulāri atjaunots. Angļu-latviešu statistiskās mašīntulkošanas sistēmas prototipa „apmācīšanai” izmantots JRC-Acquis 3.0 tekstu korpuss, tulkošanai tiek izmantots Moses dekoderis.

Angļu-latviešu tulkošanas sistēmas demonstrācija:

Tulkojamais angļu val. teksts(max 400 simboli):
Tulkojums latviešu valodā:
Izmantot morfoloģiskos faktorus!

Tulkojamo teikumu piemēri: Publikācijas:
  1. Skadiņa I. Machine Translation for Latvian. In: Proceedings of First Baltic Conference „Human Language Technologies – the Baltic Perspective”, Riga, 2004, 102-106.
  2. Skadiņa I. Studies of English-Latvian Legal texts for Machine Translation. // Meaningful Texts: The Extraction of Semantic Information from Monolingual and Multilingual Corpora, Continuum, 2005, 188-195
  3. Skadiņa I., Brālītis E. Experimental Statistical Machine Translation System for Latvian. // Proceedings of the 3rd Baltic Conference on HLT, Vilnius, 2008, 281-286.
  4. Skadiņa I., Brālītis E. English-Latvian SMT: knowledge or data? // Proceedings of the 17th Nordic Conference on Computational Linguistics NODALIDA, May 14-16, 2009, Odense, Denmark, NEALT Proceedings Series, Vol. 4 (2009), 242–245.

Latvijas Universitātes
Matemātikas un informātikas institūta
Mākslīgā intelekta laboratorija