Hemen zaude:
 » 
 » 
Itzulpengintza eta estatistika uztartzerik bai? Hizkuntza estralurtarrak aztergai - Alicia Pérez, M. Inés Torres

Inprimatu

Data: 2011ko abuztua

Itzulpengintza eta estatistika uztartzerik bai? Hizkuntza estralurtarrak aztergai - Alicia Pérez, M. Inés Torres


Irakurri artikulua pdf formatuan.


PR&ST (http://grah.ehu.es)
Elektrizitate eta Elektronika Saila; Zientzia eta Teknologia Fakultatea.
Euskal Herriko Unibertsitatea.

Itzulpengintza estatistikoa garatzeko lehengaia corpus paraleloak dira, alegia, testu bat eta elkartutako itzulpena. Testu bietan dauden erregulartasunen berri emateko erabiltzen da estatistika. Gizakion burmuinak erraztasun handiz bilatzen ditu erregulartasunak. Izan ere, Champollion dugu corpus paralelo batetik abiaturik –alegia, Rosetta harritik–, patroiak bilatuz hieroglifikoak deszifratzen jardun zuen filologoaren eredu.

Jarraian, eredu aurreratuetan sartu gabe, itzulpengintza estatistikoaren oinarrizko irizpideak agerian geratuko dira ariketa bat dela medio. Aukeratutako ariketa (irudiak barne) duela ia hamabost urte erabili zuen Kevin Knight-ek ezagutzaren ereduztapena automatikoki zelan egin zitekeen azaltzeko (Knight, 1997).

Ariketa: hizkuntza estralurtarrak aztertuz

Demagun estralurtarrak diren zentauroar eta arturoar hizkuntzen artean itzulpenak egiteko kontratua luzatzen digutela. Zelan burutu itzulpenak hizkuntza bi hauek ezagutzen ez baditugu? Apur bat arakatuz, dokumentu elebidun bat lortzen dugu (etekinik atera ahal izango diogun ez dakigu baina). Hizkuntza biok ez ezagutzeak lagunduko digu corpus paraleloa konputagailuaren ikuspegitik ustiatzen. Goazen korpusa aztertzera, ea zentauroar eta arturoar apurrik ikasten dugun.

Corpus paralelo honi erreparatuz, berehala jabetzen gara esaldien luzeraz: bikote guztiek dute luzera bera, 11. bikoteak izan ezik. Baliteke hitzez hitzeko itzulpena onargarria izatea. Hipotesi honi dagokionez, azter dezagun 3. eta 10. esaldietan agertzen den zentauroar ghirok hitza. Izan ere, ghirok hitza agertzen den guztietan arturoar hizkuntzan hilat hitza agertzen da. 3. esaldi bikoteetan ghirok nahiz hilat 5. posizioan agertzen dira, baina 10. bikotean ghirok 5. posizioan eta hilat 6. posizioan agertzen da. Ondorioz, hitzez hitzeko hipotesia bere horretan manten daiteke hauetako bat onartzen badugu:

  • hitzen ordenak arturoar eta zentauroar hizkuntzetan ez du zertan bat etorri;
  • hitzen ordena bat badator, ghirok hitza anbiguoa da, batzuetan hilat gisa eta bestetan bat gisa itzultzen baita.

Elkar ditzagun antza duten patroiak: adibidez, 1. esaldietako ok-voon eta at-voon. Jarrai dezagun bi hizkuntzetako gainontzeko hitzak lerrokatzen. 1. esaldi bikoterako aukera bi agertzen dira: ororok hitza bichat hitzarekin eta sprok hitza dat hitzarekin lerrokatzea edo alderantziz1. Gure hipotesiarekin bateragarriak diren bi aukeren artean zein da probableena? sprok askotan agertzen da ororok hitzarekin batera esaldi berean, eta horien itzulpenetan bichat nahiz dat agertzen dira. Aitzitik, 2. esaldi bikotean sprok bakarrik agertzen da, ororok gabe, eta itzulpenean dat agertzen da. Ondorioz, sprok hitzaren itzulpena dat izatea bichat baino probableagoa da.

  1. esaldi bikotearekin jarraituz, berriro ere bi aukera agertzen dira, baina 4. bikotearekin batera kontsideratuz, probableena da anok hitza pippat hitzarekin lerrokatzea eta plok hitza rrat hitzarekin.
  2. esaldi bikotean izok zentauroar hitza totat, asrat edo vat moduan itzul daitezkeela ematen du. Nolanahi ere, 6. esaldi bikotean, izok hitza agertzen da baina hiru hipotesi horietako bat ere ez da agertzen. Beraz, izok hitza anbiguoa dela ematen du. Bestalde, 3. bikoteko hihok zentauroar hitza 11. bikotean ere agertzen da, eta arrat moduan itzul daitekeela ematen du. Halaber, 3. nahiz 12. bikoteetan izok hihok hitzak agertzen dira arturoar arrat vat hitzekin. Beraz, vat izan daiteke izok hitz anbiguoaren itzulpen bat, eta 5., 6., eta 9. bikoteei behatuz, beste itzulpen bat quat dela ematen du.

Lerrokatze prozesu honek hiztegi bat sortzen laguntzen digu. Hiztegia sortzeko irizpidetzat elkarrekin agertzeko probabilitate maximoa duten hitzak elkartzea erabili dugu (irizpide zuzena denentz asmatzerik ez dugu noski!). Kontutan izan hiztegia anbiguoa dela. Adibidez, zentauroar izok hitza edo arturoar totat hitza bi eratara itzul daitezke. Gainera, itzulpenik gabeko zentauroar hitz bat ere badugu, alegia, crrrok.

Irudia 1. Deszifratze metodoaren bidez ondorioztatutako hiztegia

Ikasitakoa ikasita, martxan jarri behar dugu, arturoarrean dauden hurrengo esaldiak zentauroarrera itzultzeko eskatu baitigute:

  • 13b. iat lat pippat eneat hilat oloat at-yurup. 14b. totat nnat forat arrat mat bat. 15b. wat dat quat cat uskrat at-drubel.

Has gaitezen lehenengo esaldia itzultzen. Zazpi hitzez osatuta dago. Hitzok hiztegian kontsultatu eta zentauroarrerako itzulpena honako hauez osatuta egongo dela susmatzen dugu: lalok, brok, anok, enemok, ghirok, kantok, ok-yurp. Hurrengo urratsa, aukeratutako hitzak ordena egoki batean antolatzea da. Tamalez, Zentauriar gramatika libururik ez dugu. Zazpi hitz ezberdin antolatzeko 7! = 5.040 aukera dugu. Bost mila horien artean, zein izango da aukera zuzena?

Gramatika libururik ezean, zentauroarrean emandako testuari erreparatuz, azter dezagun zenbat aldiz agertzen den emandako X hitz bat beste Y hitz baten ostean. Alegia “Y X” hitz bikoteen (edo bigramen) agerpen maiztasuna zenbatuko dugu (ikus 2. irudia). Hitzen ordena aukeratzeko hartuko dugun irizpidea: bigramen agerpen maiztasun maximoa lortzen duen konbinaketari lehentasuna ematea. Berriro ere, irizpidea zuzena denentz ez daukagu jakiterik.

Irudia 2. Zentauriarrean emandako testuko bigramen agerpen maiztasuna

Lehenengo esaldiari elkartutako hitzen ordena ezartzeko, 2. irudiko taulan begiratuko dugu zein den esaldi baten hasieran jartzeko hitzik probableena. Puntu baten ostean maiztasun handienaz agertzen den hitza (aurresandako zazpi hitzen artean) lalok da. Geratzen diren sei hitzen artean zein da gehien agertzen dena lalok ostean? brok da. Honela, agerpen maiztasun irizpideari jarraituz, erabakitako hitz sekuentzia hauxe da:

  • 13a. lalok brok anok ghirok enemok kantok ok-yurp.

Itzuli beharreko hurrengo esaldiak (14b. esaldiak) hitz anbiguoa du; totat hitza erok ala wiwok erara itzuli erabaki behar dugu. Bietatik bat aukeratu behar bada, maiztasun handienaz agertzen dena aukeratzen dugu (ez daukagu jakiterik, ordea, hartutako erabakia zuzena den ala ez). Jarraian wiwok, nok, rarok, hihok, yorok, clok hitzen ordena hautatzeko xedez, 2. irudiko taulara joko dugu. Antza, wiwok hasierako hitza izan daiteke eta nok nahiz rarok hitzak horien ostean ager daitezke, baina berehala ohartzen gara gure hitzen artean ez dagoena taulan hihok hitzaren aurrean agertzen denik. Ez dakigu, beraz, nola lotu hihok hitza. Esanak esan, taulan badago crrrok hitz bitxia, berez gure hiztegiaren arabera hitzik sortzen ez duena. Berau aukera bat izan liteke espero genituen hitzen arteko lotura moduan erabiltzeko. Honenbestez, aukeratutako itzulpena:

  • 14a. wiwok rarok nok crrrok hihok yorok clok.

Lana amaitzeko, azken esaldia (15b) falta zaigu, baina badago inoiz ikusi ez dugun hitza: uskrat. Hitz horregatik ez balitz, aurreko prozedurari jarraituz, itzulpena honako hau dela esan genezake.

  • 15a. lalok sprok izok stok uskrat ? ok-drubel.

Testu elebidun gehiago izateak hiztegia osatzeko aukera emango liguke. zentauroarrean emandako esaldi gehiago izango bagenu behintzat, begira genezake zein hitz agertu ohi den stok eta ok-drubel artean. Bistan denez, corpus paralelo gehiagorekin hiztegia eskuz osatzea zoramena izan liteke, baina konputagailu baten laguntzaz erraz kudea daitezke hitzen agerpen maiztasunak nahiz bigramen edo trigramen agerpen maiztasunak.

Itzulpengintza eta estatistika: bi oker

Ariketa honek itzulpengintza estatistikoaren oinarrizko prozedura uzten du agerian. Itzulpena lortzeko estrategia probabilitate handieneko esaldia aukeratzean datza, eta hori hitz aukeraketa egokia eta hitzen ordena egokia aukeratzearekin lotuta egon daiteke. Honez gero, ulerterraza izango da estatistikaren oinarrizko prozedura terminologia matematikoetan adieraztea.

Jatorrizko hizkuntzan (arturoarrean) emandako s esaldi bat itzultzea, horrekin bateragarria den itu hizkuntzako (zentauroarreko) esaldien artean egokiena aukeratzean datza, t esaldi bat aukeratzean, alegia. Itzulpengintza estatistikoan, egokiena, probabilitate maximoa duena izango da: ^t. Aukeraketa prozesu hau (1) ekuazioaren bidez adierazten da. Probabilitate hau era zuzenean kalkulatzeko Bayes-en erregelaren arabera, zeharkako itzulpen eredu bat, P(s|t), eta itu hizkuntzako eredu bat, P (t), erabil daiteke, (2) adierazpenean deskribatu den bezala.

Itzulpenak bilatzeko orduan, beraz, probabilitate maximoko esaldia aukeratzea erabiliko dugu irizpidetzat. Zelan ezarri probabilitate banaketa horiek? Corpus paraleloetatik, jakina; ariketan egin dugun bezala, agerpen maiztasunetatik abiatuz. Baina corpus paraleloa ez bada esanguratsua, agerpen maiztasunetatik ondorioztatutako probabilitate banaketek ez dute zertan izan gure atazaren adierazgarri.

Jarritako ariketa baliagarria izan zaigu estatistikan oinarritutako ereduen sarrera egiteko. Dena den, hizkuntza naturalean adibidean baino hainbat erronka gehiago agertzen dira. Bistan denez, bi hizkuntzetan emandako esaldien luzera ez da zertan izan antzekoa. Halaber, itzulpenak ezin dira hitzez hitz egin. Are gehiago, testuinguruak determinatu ohi du hitz baten esanahia; izan ere, hitz gehienak anbiguoak dira.

Erabiltzen diren metodoak ere aurkeztutakoa baino aurreratuagoak diren arren, hizkuntza biren arteko morfologia eta sintaxi ezberdintasunak makina batek etekina ateratzeko moduan modelatzea desafioa izaten jarraitzen du. Itzulpengintza automatikoaren ikerkuntzan pil-pilean dauden teknikak hurbilpen ezberdinen konbinazioak dira; alegia, eredu morfologiko, sintaktiko eta semantikoak ez ezik, eredu estatistikoak ere uztartzen dituzte.

Gaur egun, zein neurriraino dira lagungarriak metodo hauek? Itzulpengintza estatistikoan diharduen P. Koehn ikerlariak, guztiz automatikoki kalitate handiko emaitzak sortzen dituen itzulpengintza teknikak graal saindutzat hartzen ditu (Koehn, 2009). Nolanahi ere, itzulpengintza automatikoa konturatzeke sartu zaigu denon etxeetan sarritan tresna elektrikoen eskuliburuak automatikoki itzulita baitaude (batzuetan erabat kaskarrak direnak, zer esanik ez). Seguruenik, erosle gehienok gure hizkuntzan ulergarria den testua nahiago dugu arrotzak diren jatorrizko argibideak baino.

Amaitzeko, inori damutuko ez zaion gomendioa: artikulu honen iturri nagusia izan den Kevin Knighten “Automating knowledge acquisition for machine translation” artikulua2.

ERREFERENTZIAK

Knight, K., 1997. Automating Knowledge Acquisition for Machine Translation. AI Magazine 18 (4), 81–96.

Koehn, P., 2009. Statistical Machine Translation. Cambridge University Press.

OHARRAK

1. Jakina, baliteke onartzen ari garen hitzez hitzeko hipotesia oker egotea eta, esate baterako, ororok hitzik produzitzen ez duen aditz laguntzailea izatea eta sprok, aldiz, bichat dat bikoteaz itzultzea. Baina momentuz, goazen sinplea den hitzez hitzeko hipotesia zuzena izan daitekeen aztertzera.

2. Artikulu hau eskuragarri dago Kevin Knight ikertzailearen web orrian: http: //www.isi.edu/~knight/