Hiztegigintza teknologiaz modernizatzen
- (Elhuyar aldizkariko 2013ko azaroko zenbakian argitaratutako artikuluaren jatorrizko extended bertsioa)
Elhuyarreko lau sail nagusietako bat Hizkuntza eta Teknologia izenekoa da. Haren barruan, beste hiru azpisail daude: itzulpen-zerbitzuak, hiztegigintza eta hizkuntza-teknologiak. Hizkuntza-teknologiak asko dira, eta arlo ugaritan dira erabilgarriak. Eta guk ere arlo askotarako baliagarri direnak ikertu, garatu eta merkaturatzen ditugu; baina, normala denez, Elhuyarren beste arloetarako baliagarri direnak lantzen ditugu bereziki. Esaterako, itzulpen-zerbitzuetan lehia-abantaila eman dezaketen itzulpen automatikoa eta itzulpen-memorien teknologiak lantzen ditugu, eta hiztegigintzarako interesgarriak diren teknologia aunitz ere bai.
Lan-prozesua errazten: terminologia erauzketa, konbinazioen erauzketa, hiztegi automatikoak...
Hiztegigintzan egin beharreko lanetako bat hitz-hautaketa da. Horretan laguntzeko tresnak garatu ditugu, testu-corpusak emanda, teknika linguistiko eta estatistikoak konbinatuz, haietako hitz, termino edo kolokazio esanguratsuenak erauzten dituztenak.
Tresna horietako bat Erauzterm da. Euskarazko arlo jakin bateko corpus espezializatu bat emanik, Erauztermek han agertzen diren arlo horretako terminoak detektatzen ditu. Tresna automatikoa den neurrian, ez da perfektua; baina gero eskuz errepaso bat egiteko interfazea dauka.
ElexBI tresnak antzeko zerbait egiten du, baina elebitan. Corpus paralelo bat emanik (elkarren itzulpen diren testuen bilduma, esaldi mailan lerrokatuta), hango termino-baliokidetzak erauzten ditu, hau da, bi hizkuntzetako termino-bikoteak. Tresna hori web zerbitzu gisa jarria dugu, Itzulterm izenarekin. Eta tresna hori erabiliz egin da Lanbide Heziketako hiztegia.
AzerHitz-ek ere ElexBI-ren gauza bera egiten du, baina lehengaitzat corpus paraleloak hartu beharrean (corpus paraleloak ez baitaude nahi beste edo ez baitira nahi bezain handiak, batez ere arlo espezializatuetan edo hizkuntza-pare jakinetan), corpus konparagarriak erabiltzen ditu. Horiek, elkarren itzulpen izan gabe, gai bera tratatzen duten testu-bilduma eleaniztunak dira. Corpus-mota horretatik terminologia elebiduna erauzteko gai da AzerHitz.
Testuetatik informazio lexikografikoa ateratzeko beste tresna bat Konbitz da. Hark euskarazko testuetatik ohiko konbinazioak, kolokazioak, fraseologia eta horrelakoak erauzten ditu. Oraingoz, izen-izen, izen-adjektibo eta izen-aditz konbinazio ohikoenak ateratzen ditu.
PiboLex tresna ere badugu, hiztegi berriak sortzen dituena bi hiztegi eta zubi-hizkuntza bat erabilita. Harekin sortutako euskarazko bost hiztegi online jarri genituen automatikoki eraikitako hiztegien atarian, uztailean kontatzen genizuenez.
Lanerako lehengaia, corpusak
Ikusi duzuenez, teknologia horietako askok corpusen beharra dute, eta horregatik da corpusgintza digitala asko lantzen ditugun arloetako bat. EHUko IXA Taldearekin batera, Zientzia eta Teknologiaren Corpusa sortu genuen; Eroski Fundazioarentzat Consumer aldizkariko corpus eleanitza osatu genuen; eta Euskaltzaindiarentzat Lexikoaren Behatokiko Corpusa osatzen ari gara IXA Taldearekin eta UZEIrekin batera.
Hala ere, corpusak egitea garestia denez, corpusak osatzeko weba erabili ahal izateko tresnak sortzen ari gara azken urteotan. Internet corpus gisa kontsultatu ahal izateko, CorpEus web zerbitzua jarri genuen online duela urte batzuk. Eta webetik automatikoki corpus orokor handiak, corpus espezializatuak, corpus paraleloak eta corpus konparagarriak sortzeko tresnak ere baditugu. Webetik automatikoki eraikitako euskarazko corpus orokor handi bat, euskara-gaztelania corpus paralelo handi bat eta lehen aipatutako Konbitz tresnaren bidez corpus orokor handitik erauzitako konbinazioak kontsultagai jarri genituen Web-corpusen Atarian, otsailean kontatu genizuen bezala.
Elhuyar Hiztegien webgune berria
Hiztegigintzako lan-prozesua errazteaz eta lehengaitarako corpus elektronikoz hornitzeaz gain, teknologiak, oro har, eta hizkuntza-teknologiek, bereziki, asko hobetu dezakete hiztegi-erabiltzaileen esperientzia. Duela urte batzuk hiztegiak webean jartzen hasi zirenetik, gehienetan eskaini izan da bilaketa-kutxen aukera, bilaketa azkarrak egin ahal izateko, alfabetikoki ordenatutako zerrenda batean bilatzera joan beharrean (nahiz eta badauden egon hiztegien PDFak online jarri besterik egiten ez dutenak). Baina bilaketa egin ondoren eskaintzen diren emaitzak papereko hiztegiek eskaintzen dituztenak bezalakoak izaten dira. Berriki aurkeztu den Elhuyar Hiztegien webgune berrian (http://hiztegiak.elhuyar.org/), non euskara-gaztelania, euskara-frantsesa eta euskara-ingelesa hiztegiak baitaude, haratago joan nahi izan dugu, eta aukera aurreratuagoak eskaini.
Adibidez, bilatu den hitz bat nola esaten den entzun daiteke, bi aukera baliatuta: Forvo webgunean erabiltzaileek grabatutako audioen bidez, edo TTS (text-to-speech edo ahots-sintesia) teknologiaren bidez, hau da, ordenagailuz sortutako ahots sintetikoa baliatuz. Erabiltzen dugun TTS sistema AhoTTS da, EHUko Aholab Taldeak garatutakoa eta guk merkaturatzen duguna.
Horrez gain, hitz bat bilatu nahi dugunean, hitza tekleatzen hasi ahala, hasiera hori duten hitzen zerrenda erakusten digu; hala, ez dago dena idatzi beharrik, eta oker idazteko aukerak murrizten dira.
Bestalde, hitzen adibideei dagokienez, hiztegian egileek sartzen dituzten ohikoez gain, lehen aipatu dugun webetik erauzitako euskara-gaztelania corpus paraleloan aurkitzen diren adibideak ikusteko aukera ematen du webgune berri honek. Adibide horiek ez dira helburu-hizkuntzakoak soilik, elkarren itzulpen diren esaldi pareak baizik.
Gainera, jatorri-hizkuntzako sarreren gaineko ohiko bilaketaz gain, helburu-hizkuntzako sarreretan bilatzeko aukera ere ematen da. Eta etorkizunean adibideetan ere bilatzeko aukera eskaini nahi da.
Hiztegia pertsonalizatzeko aukerak ere eskaintzen dira, hala nola egindako azken bilaketak gordetzea, bilaketa batzuk norberaren gogokoenen zerrenda batean gordetzea eta abar.
Oraingoz berrikuntza horiekin argitaratu badugu ere, etorkizunean poliki-poliki gauza gehiago sartzeko asmoa dago. Adibidez, zuzenean gorago aipatu dugun konbinazioen bilatzailera joateko aukera, beste hiztegi eta corpus batzuetako emaitzak ere erakustea, hitz bat gaizki idatzi denean zuzena proposatzea, bilatutako hitzaren deklinazioak edota inflexioak erakustea…
Eta are gehiago etorkizun!
Gainera, datozen urteetan are gehiago teknologizatu nahi dugu gure hiztegigintza-saila. Corpusgintzan jarraitzen dugu corpusak automatikoki eraikitako tresnak hobetzen eta berriak egiten, eta horiekin gero eta corpus gehiago, handiagoak eta hizkuntza-pare berrietakoak osatzen. Gure asmoa da corpus berri horiek ere online jartzea Web-corpusen Atarian.
Baina berrikuntza nagusia hiztegigintzaren automatizazioaren arlotik etorriko da. Orain arte landu ditugun mota horretako teknologia gehienek hiztegirako hitz eta terminoak eta haien ordainak erauzten zituzten corpusetatik; baina, horiez gain, hiztegi batek definizioak, adierak eta adibideak behar ditu. Bada, orain hasi gara horiek modu automatikoan lortzeko modua ere lantzen, hau da, hitz baten definizioak, adierak eta horietarako adibide egokiak testuetatik edota webetik automatikoki erauzten.
Lehenagotik genituen hizkuntza-teknologiak ustiatzen jarraituz eta abiarazi berri ditugunak garatuz, Elhuyarren hiztegigintza punta-puntakoa izatea lortu nahi dugu, mundu gero eta globalizatuago honetan euskarak beste hizkuntzekin harremanetan jarraitu ahal izan dezan.