Edukira salto egin | Salto egin nabigazioara

Tresna pertsonalak

Eibarko peoria, San Blasa baino hobia
Hemen zaude: Hasiera / Blogak / e-gorblog / Hiztegigintza teknologiaz modernizatzen

Hiztegigintza teknologiaz modernizatzen

e-gor 2014/04/01 22:10
Hiztegigintzan, beste ia edozein jardueratan bezala, aldaketa sakonak gertatu dira azken urteotan teknologiaren eskutik. Papera oinarri eta helburu izatetik (paperean zeuden testuak aztertzen ziren hiztegiak egiteko eta emaitza paperezko hiztegiak ziren) eta eskuzko lan handia eskatzetik, pasatu gara testu eta corpus elektronikoak erabiltzera, prozesuaren zati handi bat automatizatzera eta argitaratzeko euskarri digitalak erabiltzera, CDak eta Internet adibidez (eta, kasu batzuetan, esklusiboki). Elhuyarreko hiztegigintzan ere eman dugu modernizazio-pauso hori, hizkuntza-teknologiak lagun.
Hiztegigintza teknologiaz modernizatzen

Irudia: Elhuyar Fundazioa

(Elhuyar aldizkariko 2013ko azaroko zenbakian argitaratutako artikuluaren jatorrizko extended bertsioa)

Elhuyarreko lau sail nagusietako bat Hizkuntza eta Teknologia izenekoa da. Haren barruan, beste hiru azpisail daude: itzulpen-zerbitzuak, hiztegigintza eta hizkuntza-teknologiak. Hizkuntza-teknologiak asko dira, eta arlo ugaritan dira erabilgarriak. Eta guk ere arlo askotarako baliagarri direnak ikertu, garatu eta merkaturatzen ditugu; baina, normala denez, Elhuyarren beste arloetarako baliagarri direnak lantzen ditugu bereziki. Esaterako, itzulpen-zerbitzuetan lehia-abantaila eman dezaketen itzulpen automatikoa eta itzulpen-memorien teknologiak lantzen ditugu, eta hiztegigintzarako interesgarriak diren teknologia aunitz ere bai.

Lan-prozesua errazten: terminologia erauzketa, konbinazioen erauzketa, hiztegi automatikoak...

Hiztegigintzan egin beharreko lanetako bat hitz-hautaketa da. Horretan laguntzeko tresnak garatu ditugu, testu-corpusak emanda, teknika linguistiko eta estatistikoak konbinatuz, haietako hitz, termino edo kolokazio esanguratsuenak erauzten dituztenak.

Tresna horietako bat Erauzterm da. Euskarazko arlo jakin bateko corpus espezializatu bat emanik, Erauztermek han agertzen diren arlo horretako terminoak detektatzen ditu. Tresna automatikoa den neurrian, ez da perfektua; baina gero eskuz errepaso bat egiteko interfazea dauka.

ElexBI tresnak antzeko zerbait egiten du, baina elebitan. Corpus paralelo bat emanik (elkarren itzulpen diren testuen bilduma, esaldi mailan lerrokatuta), hango termino-baliokidetzak erauzten ditu, hau da, bi hizkuntzetako termino-bikoteak. Tresna hori web zerbitzu gisa jarria dugu, Itzulterm izenarekin. Eta tresna hori erabiliz egin da Lanbide Heziketako hiztegia.

AzerHitz-ek ere ElexBI-ren gauza bera egiten du, baina lehengaitzat corpus paraleloak hartu beharrean (corpus paraleloak ez baitaude nahi beste edo ez baitira nahi bezain handiak, batez ere arlo espezializatuetan edo hizkuntza-pare jakinetan), corpus konparagarriak erabiltzen ditu. Horiek, elkarren itzulpen izan gabe, gai bera tratatzen duten testu-bilduma eleaniztunak dira. Corpus-mota horretatik terminologia elebiduna erauzteko gai da AzerHitz.

Testuetatik informazio lexikografikoa ateratzeko beste tresna bat Konbitz da. Hark euskarazko testuetatik ohiko konbinazioak, kolokazioak, fraseologia eta horrelakoak erauzten ditu. Oraingoz, izen-izen, izen-adjektibo eta izen-aditz konbinazio ohikoenak ateratzen ditu.

PiboLex tresna ere badugu, hiztegi berriak sortzen dituena bi hiztegi eta zubi-hizkuntza bat erabilita. Harekin sortutako euskarazko bost hiztegi online jarri genituen automatikoki eraikitako hiztegien atarian, uztailean kontatzen genizuenez.

Lanerako lehengaia, corpusak

Ikusi duzuenez, teknologia horietako askok corpusen beharra dute, eta horregatik da corpusgintza digitala asko lantzen ditugun arloetako bat. EHUko IXA Taldearekin batera, Zientzia eta Teknologiaren Corpusa sortu genuen; Eroski Fundazioarentzat Consumer aldizkariko corpus eleanitza osatu genuen; eta Euskaltzaindiarentzat Lexikoaren Behatokiko Corpusa osatzen ari gara IXA Taldearekin eta UZEIrekin batera.

Hala ere, corpusak egitea garestia denez, corpusak osatzeko weba erabili ahal izateko tresnak sortzen ari gara azken urteotan. Internet corpus gisa kontsultatu ahal izateko, CorpEus web zerbitzua jarri genuen online duela urte batzuk. Eta webetik automatikoki corpus orokor handiak, corpus espezializatuak, corpus paraleloak eta corpus konparagarriak sortzeko tresnak ere baditugu. Webetik automatikoki eraikitako euskarazko corpus orokor handi bat, euskara-gaztelania corpus paralelo handi bat eta lehen aipatutako Konbitz tresnaren bidez corpus orokor handitik erauzitako konbinazioak kontsultagai jarri genituen Web-corpusen Atarian, otsailean kontatu genizuen bezala.

Elhuyar Hiztegien webgune berria

Hiztegigintzako lan-prozesua errazteaz eta lehengaitarako corpus elektronikoz hornitzeaz gain, teknologiak, oro har, eta hizkuntza-teknologiek, bereziki, asko hobetu dezakete hiztegi-erabiltzaileen esperientzia. Duela urte batzuk hiztegiak webean jartzen hasi zirenetik, gehienetan eskaini izan da bilaketa-kutxen aukera, bilaketa azkarrak egin ahal izateko, alfabetikoki ordenatutako zerrenda batean bilatzera joan beharrean (nahiz eta badauden egon hiztegien PDFak online jarri besterik egiten ez dutenak). Baina bilaketa egin ondoren eskaintzen diren emaitzak papereko hiztegiek eskaintzen dituztenak bezalakoak izaten dira. Berriki aurkeztu den Elhuyar Hiztegien webgune berrian (http://hiztegiak.elhuyar.org/), non euskara-gaztelania, euskara-frantsesa eta euskara-ingelesa hiztegiak baitaude, haratago joan nahi izan dugu, eta aukera aurreratuagoak eskaini.

Adibidez, bilatu den hitz bat nola esaten den entzun daiteke, bi aukera baliatuta: Forvo webgunean erabiltzaileek grabatutako audioen bidez, edo TTS (text-to-speech edo ahots-sintesia) teknologiaren bidez, hau da, ordenagailuz sortutako ahots sintetikoa baliatuz. Erabiltzen dugun TTS sistema AhoTTS da, EHUko Aholab Taldeak garatutakoa eta guk merkaturatzen duguna.

Horrez gain, hitz bat bilatu nahi dugunean, hitza tekleatzen hasi ahala, hasiera hori duten hitzen zerrenda erakusten digu; hala, ez dago dena idatzi beharrik, eta oker idazteko aukerak murrizten dira.

Bestalde, hitzen adibideei dagokienez, hiztegian egileek sartzen dituzten ohikoez gain, lehen aipatu dugun webetik erauzitako euskara-gaztelania corpus paraleloan aurkitzen diren adibideak ikusteko aukera ematen du webgune berri honek. Adibide horiek ez dira helburu-hizkuntzakoak soilik, elkarren itzulpen diren esaldi pareak baizik.

Gainera, jatorri-hizkuntzako sarreren gaineko ohiko bilaketaz gain, helburu-hizkuntzako sarreretan bilatzeko aukera ere ematen da. Eta etorkizunean adibideetan ere bilatzeko aukera eskaini nahi da.

Hiztegia pertsonalizatzeko aukerak ere eskaintzen dira, hala nola egindako azken bilaketak gordetzea, bilaketa batzuk norberaren gogokoenen zerrenda batean gordetzea eta abar.

Oraingoz berrikuntza horiekin argitaratu badugu ere, etorkizunean poliki-poliki gauza gehiago sartzeko asmoa dago. Adibidez, zuzenean gorago aipatu dugun konbinazioen bilatzailera joateko aukera, beste hiztegi eta corpus batzuetako emaitzak ere erakustea, hitz bat gaizki idatzi denean zuzena proposatzea, bilatutako hitzaren deklinazioak edota inflexioak erakustea…

Eta are gehiago etorkizun!

Gainera, datozen urteetan are gehiago teknologizatu nahi dugu gure hiztegigintza-saila. Corpusgintzan jarraitzen dugu corpusak automatikoki eraikitako tresnak hobetzen eta berriak egiten, eta horiekin gero eta corpus gehiago, handiagoak eta hizkuntza-pare berrietakoak osatzen. Gure asmoa da corpus berri horiek ere online jartzea Web-corpusen Atarian.

Baina berrikuntza nagusia hiztegigintzaren automatizazioaren arlotik etorriko da. Orain arte landu ditugun mota horretako teknologia gehienek hiztegirako hitz eta terminoak eta haien ordainak erauzten zituzten corpusetatik; baina, horiez gain, hiztegi batek definizioak, adierak eta adibideak behar ditu. Bada, orain hasi gara horiek modu automatikoan lortzeko modua ere lantzen, hau da, hitz baten definizioak, adierak eta horietarako adibide egokiak testuetatik edota webetik automatikoki erauzten.

Lehenagotik genituen hizkuntza-teknologiak ustiatzen jarraituz eta abiarazi berri ditugunak garatuz, Elhuyarren hiztegigintza punta-puntakoa izatea lortu nahi dugu, mundu gero eta globalizatuago honetan euskarak beste hizkuntzekin harremanetan jarraitu ahal izan dezan.

Iruzkina gehitu

Erantzuna formulario hau betez utzi dezakezu. Formatua testu arruntarena da. Web eta e-posta helbideak automatikoki klikagarri agertuko dira.

Galdera: Zenbat dira hiru ken lau (idatzi zenbakiz) ?
Erantzuna:
e-gorblog

Egunez, Igor Leturia Azkarate pertsona arrunta da. Errenterian bizi den arrasatearra, 8etatik 17etara Elhuyarren lan egiten du eta arratsaldeak neskalagunarekin eta bere bi umeekin pasatzen ditu.

Baina gaua iritsi eta umeak lotara joaten direnean, e-gor bihurtzen da, interneteko bere alter-egoa, ziberespazioko informatikaririk komikizaleena eta komikizalerik informatikariena! Bere superbotereekin (interneteko kable-konexioa, bloglines, informatika aldizkariak, gadget-ak, komiki-bilduma, Errenteriko liburutegiko komikien atala eta batez ere bere jakinmin aseezina) eta bere superlaguntzaileak ondoan dituela (Patxi Lurra, DabilenHarria...), euskaldunon teknofobiaren eta komikiei buruzko aurreiritzien aurka burrukatzen du etengabe! Hemen duzu bere bloga: e-gorblog!

Bai, hor goiko aurkezpena superheroi batena da (ezin aproposagoa honelako blog batentzat, ezta?). Superheroia banintz zein izango nintzatekeen jakiteko the Superhero Personality Test egin nuen eta hona emaitzak:

You are Spider-Man
You are intelligent, witty, a bit geeky and have great power and responsibility.

Spider-Man
80%
Superman
70%
Green Lantern
65%
Robin
65%
The Flash
60%
Supergirl
55%
Hulk
55%
Iron Man
45%
Wonder Woman
35%
Catwoman
25%
Batman
0%
Lizentzia

Creative Commons-en baimena
Blog honetako edukia, Igor Leturiak eta beste kolaboratzaile batzuek egiten dutena, Creative Commons Aitortu-PartekatuBerdin 3.0 Unported baimen baten mende dago (irudiak salbu).

Artxiboa
2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024
Artikulu aipagarriak

MythTV sorta
2004/11

"Pololoak" sorta
2004/11-12 - 2006/10-12 - 2007/02-03

Monoblogoa
2005/01/11

"Persepolis", xalotasunaren sakontasuna
2005/01/25

Elgetako Blogs&Beers 2005: nire inpresioa eta moblogging kontuak
2005/04/18

Firefox eta bere plugin zoragarriak
2005/05/11

"El País"-en komiki bilduma
2005/05/15

Euskarazko bi blog berri (bai, beste bi, baina hauek bereziak dira!)
2005/05/25

"Watchmen" sorta
2005/09-11 - 2006/10 - 2007/10 - 2008/07

"La cárcel de papel"-eko "Mis tebeos favoritos" saila I: 1etik 20ra
2005/11/08

"Goienkaria"-n agertu naiz
2005/12/08

Komikiak eta euskal rock-a
2005/12/14

Ruben Arozena "Ruben" komikigilea hil da
2006/01/02

Zope-rako DTML Calendar Tag produktua, euskaraz
2006/02/01

"Joyas Literarias Juveniles" bilduma, osorik eMule-n
2006/08/05

Argazkigintza eta DRM-a
2006/10/09

Paul Auster eta Euskararen Herria
2006/10/29

Angoulême sorta
2007/01-02

Gaur duela 25 urte nire bizitza aldatu zen
2007/04/23

Hergé-ren defentsan
2007/05/22

Ubuntu-ren bertsio berria, hobekuntza askorekin
2007/07/02

OLPC sorta
2007/12 - 2008/01

Guillermo Zubiaga, Marvel-eko komikilari euskalduna
2008/02/05

Asus EEE PC, ordenagailu txiki eta merkeen hurrengo sorta
2008/03/11

Agur, Ipurbeltz, agur... :-(
2008/08/04

"Café Budapest", gizatasuna eta bizikidetzaren aldeko aldarria
2008/08/25

"Arturo Erregea" serie mitikoa, Euskal Encodings-en! (beste askorekin batera)
2008/09/17

"Gazteak", beste serie mitiko bat euskaraz eskuragai!
2008/10/14

Pottokiek 50 urte!
2008/10/22

Europan ere OLPC-ren XO ordenagailuak erosteko aukera!
2008/11/12

Microsoft-en web zerbitzuetako gehienak, euskaraz!
2008/12/04

"Heroes"-en 2. denboraldia: ETB kirtenkeria errepikatzera, eta Euskal Encodings konpontzera
2009/01/23

I. Euskal OLPC Party-a, apirilaren 23an Donostiako Doka kafe antzokian
2009/04/16

Elkarrizketa egin didate 7K-n
2009/06/03

Azpiriren Spectrum-entzako jokoen azalak liburu batean
2009/10/06

Asterix, heroi garaitua
2009/10/29

"Ihes ederra", euskarazko komikigintzaren heldutasunaren konfirmazioa
2009/11/13

Pololoak 3: The making of
2009/11/22

5 urte 5!
2009/12/15

Nobela grafikoa, komikien prestigiorako ala mespretxurako?
2009/12/20

"Pololoak 3 - Atxeritoko balada", trilogiaren amaiera borobila
2010/01/13

Sinclair ZX Spectrum bat oparitu didate!
2010/01/19

Zergatik ez dudan liburu elektronikorik erosiko (gauzak aldatzen ez diren artean)
2010/01/27

Errealitate areagotua: munduaren pertzepzioa aberasten
2010/02/09

e-gorblog, "Nick dut nik" telebista saioan
2010/05/20

Sarearen neutraltasunari erasoak: Interneten izaera arriskuan
2010/06/02

"Avatar, azken aire maisua" osoa eta "Heroiak"-en lehen bi denboraldiak, Euskal Encodings-en
2010/07/22

Sistema eragileen guda berria
2010/12/14

Anubis 3.0 albumarentzat 3D animazio ederra
2010/12/27

Telebistaren benetako iraultza hemen da, eta ez da LTDa
2011/01/10

"Asterix galiarra" eta "Urrezko igitaia" berrargitaratu ditu Salvatek
2011/01/13

Euskarazko komikigintza digitalizazioaren aurrean
2011/01/27

"Ihes ederra"ren gaztelaniazko eta katalanezko bertsioak eta "Alokairuan", kalean
2011/02/20

Star Wars jatorrizko trilogia, euskaraz
2011/03/21

Sare sozialetan preso
2011/04/06

Zer dudan Steve Jobsen, edo Appleren, aurka
2011/10/14

Gaur 100 urte Adèle Blanc-Sec-en abenturak hasi zirela
2011/11/04

Euskarazko 8 komiki berri
2011/12/02

Social networks killed the RSS star?
2012/06/10