Edukira salto egin | Salto egin nabigazioara

Tresna pertsonalak

Eibarko peoria, San Blasa baino hobia
Hemen zaude: Hasiera / Blogak / e-gorblog / Automatikoki eraikitako hiztegien ataria

Automatikoki eraikitako hiztegien ataria

e-gor 2013/10/18 23:20
Hiztegi elebidunak baliabide beharrezkoa dira hizkuntza batentzat. Baina horiek egitea garestia da, eta euskara bezalako baliabide urriko hizkuntza batek ez ditu nahi beste. Elhuyarreko Hizkuntza-Teknologien I+G sailean teknologia berri batekin ikertzen aritu gara azken urteotan, zubi-hizkuntza bat erabiliz hizkuntza-pare berrientzako hiztegiak automatikoki sortzeko. Eta ikerketa horren emaitzak jendearen eskura jartzeko, Hiztegi Automatikoen Ataria online paratu dugu, 5 hiztegi elebidun berrirekin.
Automatikoki eraikitako hiztegien ataria

Irudia: Elhuyar I+G

(Elhuyar aldizkariko 2013ko uztaileko zenbakian argitaratutako artikuluaren jatorrizko extended bertsioa)

Hizkuntza-baliabide oinarrizko bat baldin badago, hori hiztegiak dira. Eta hiztegien artean, elebidunak oso beharrezkoak dira kasu askotan: hizkuntzak ikastean, itzulpengintzan... Elhuyarreko Hizkuntza-Teknologien sailean ere hiztegi elebidunak ezinbestekoak ditugu hainbat arlotarako: itzulpen automatikorako, bilaketa eleanitzerako...

Alabaina, hiztegiak egitea garestia da. Hori dela eta, euskarazko hiztegi elebidunak ez dira guk nahi bezain ugariak, eta berdin gertatzen da baliabide urriko beste hizkuntza batzuekin ere. Normalean, kontaktuan dauden hizkuntzetarako hiztegiak egoten dira (tokian tokiko beste hizkuntza batzuk edo hurbilekoak), edo nazioarteko hizkuntza nagusietarakoak. Baina ez dira egiten beste hizkuntza txikietarakoak edo urruneko hizkuntza nagusietarakoak, eta horrek desabantailan jartzen ditu euskara bezalako hizkuntza txikiak bertako erdarekiko. Etorkinek hizkuntza ikasteko aukeretan, adibidez: ez da erraza euskara zuzenean norberaren hizkuntzatik abiatuta ikastea, beti gaztelania, ingelesa edo frantsesa zubi hartuta egin behar; beraz, aurrez beste horietako bat ikasi behar...

Zubi-hizkuntzak hiztegiak sortzeko

Zubi-hizkuntzarena desabantaila da hizkuntza bat ikasteko orduan, baina ideia hori baliatu daiteke hiztegi berriak erraz eta merke sortzeko. Izan ere, ia hizkuntza guztiek dute hiztegi elebidunen bat hizkuntza “handiren” batekin (normalean, ingelesa). Eta horrelako bi hiztegi baliatu ditzakegu, hizkuntza “handi” hori zubi moduan hartuta, bi hizkuntza-pare berriren arteko hiztegi bat eraikitzeko. Pibotajearen teknika deritzo horri, hizkuntza hori pibote moduan erabiltzean datzalako. Modu errazean azalduta, euskara-ingelesa hiztegi batean etxe => house jartzen badu eta ingelesa-alemana hiztegi batean house => haus, orduan etxe => haus dela ondorioztatzen dugu. Eta horrela eraiki dezakegu euskara-alemana hiztegi bat.

Elhuyarreko Hizkuntza-Teknologien I+G sailean teknika horrekin ikertzen aritu gara azken urteetan, euskara eta beste hizkuntza batzuen arteko hiztegi berriak sortzeko asmoz. Goiko adibidea ikusita, balirudike oso teknika erraza dela; baina adibide hori oso sinplea da, errealitatean hitz batek esanahi anitz izan ditzakeelako, eta horietako bakoitzak hainbat ordain. Horrek dakar hiztegien kateatze sinple batek baliokidetasun oker asko sortzea, irudiko adibidean ikusten den bezala.

HiztAut
Irudia: Elhuyar I+G

Beraz, kalitateko hiztegi bat sortzeko, nahitaezkoa da ekibalentzia oker horiek automatikoki detektatu eta ezabatzea, eta horretan datza teknika honen zailtasuna. Bi metodo erabiltzen dira horretarako. Lehenak bi hitzen artean zenbat bide dauden kontatzen ditu; zenbat eta bide gehiago, orduan eta probabilitate handiagoa baliokidetasuna zuzena izateko. Bigarrenak hizkuntza bietako corpusetan hitzek duten testuinguruen antzekotasuna neurtzen du; zenbat eta antz gehiago izan testuinguruek, orduan eta aukera handiagoa baliokideak izateko. Eta, jakina, testuinguruen antzekotasuna neurtzeko, hiztegi bat behar da, hizkuntza ezberdinetan baitaude; lehenengo metodoarekin lortutako ziurrak erabiltzen dira horretarako.

Garbiketarako teknika hauek aplikatuta ere, hizkuntza-teknologietako edozein metodo automatikorekin bezala, inoiz ez dira emaitza perfektuak lortzen, hau da; beti egongo da errore-tasaren bat. Lortzen den errore-tasa hori oso aldakorra da, hainbat faktoreren araberakoa baita (hizkuntzak, erabilitako hiztegiak, erabilitako corpusak...); baina neurketa batzuen arabera, emaitza zuzenen portzentajea %60-80 artekoa izan daiteke. Argi dagoenez, ez dira hiztegi perfektuak; baina ezer ez izatea baino hobe da.

Hiztegi automatikoen ataria

Aipatutako metodoak erabiliz, euskarazko bost hiztegi elebidun sortu ditugu, hiru kontinentetako (Afrika, Asia eta Europa) hizkuntza nagusietako 5 aukeratuta: euskara-arabiera, euskara-swahilia, euskara-txinera, euskara-hindia eta euskara-alemana. Guztietan ingelesa erabili da zubi-hizkuntza gisa. Euskara-ingelesa hiztegi gisa Elhuyarrena erabili dugu, eta ingelesa eta beste hizkuntzen artekoentzat sarean libre zeuden bost hiztegi hartu ditugu. Eraikitako hiztegiak ez dira oso handiak: oinarrizko hiztegiak dira, 8.000 eta 21.000 sarrera artekoak. Izan ere, sarean lortutako hiztegi horiek ere halakoak ziren. Hiztegi guztiak bi norabideetan dira.

Hiztegi horiek guztiak jendearen eskura jarri ditugu orain, online jarri dugun Hiztegi Automatikoen Atarian: http://hiztegiautomatikoak.elhuyar.org. Eta jendearen eskura jarri ditugula diogunean, esan nahi dugu ez direla soilik kontsultarako. Batetik, hiztegi guztiak ataritik bertatik osorik deskargatu daitezke (jatorrian erabili ditugun hiztegiak libreak zirenez, horietatik eratorri ditugunak ere libre jartzen ditugu guk). Bestetik, eta arestian esan dugunez hiztegiak ez direla guztiz perfektuak eta akatsak dituztela, webguneak parte hartzeko aukera ematen die erabiltzaileei, hiztegiok zuzendu eta hobetzeko, zuzenak eta okerrak direnak markatzeko sistemaren bidez.

Webgunean, hiztegietan hitzak bilatzeko eremua dago batetik. Bestetik, emaitzen eremuan, ordainak zuzenak edo okerrak iruditzen zaizkigun adieraz dezakegu; izan ere, emaitza bakoitzeko, hitzaren ordainaz gain, corpusetako erabilera errealak erakusten dira, bai adibide gisa balio dezaten, bai erabiltzaileari emaitza ongi edo txarto dagoen erabakitzen lagundu diezaioten. Eta, halaber, ordain ziurrak eta zalantzazkoak ezberdintzeko aukera ere ematen du. Deskargen atal bat ere badago, hiztegiak osorik XML formatuan jaitsi ahal izateko. Eta, azkenik, foro bat ere badu webguneak, erabiltzaileek hitz zehatzen zuzentasunari buruz eztabaidatu dezaten, elkarri kontsultak egin diezaieten eta abar. Webguneak interfazea 8 hizkuntzatan du, eta teklatu birtual bat eskaintzen du alfabeto latindarra erabiltzen ez duten hizkuntzetan bilaketak egiteko.

Egindako lana ez dugu bere horretan utzi nahi. Hiztegi gehiago sortu, eta horiek ere atarian sartzeko asmoa dugu. Baita kolaborazio-lana bozketaz haragokoa izan dadin aukera emateko ere: ordainak eta adibideak gehitu edo aldatzeko aukera emanez, esate baterako.

Hiztegi Automatikoen Atariarekin, lehenengo aldiz erlazionatu dugu euskara beste 5 hizkuntzekin. Urruneko hizkuntzak irudi lezakete, eta beharbada hala izango zen lehenago, baina globalizazioarekin eta Internetekin gero eta harreman handiagoa dute elkarrekin. Uste dugu baliabide garrantzitsua direla, eta are gehiago izango direla etorkizunean, denon artean hobetzen lagunduz gero.

Bibliografia

Iruzkina gehitu

Erantzuna formulario hau betez utzi dezakezu. Formatua testu arruntarena da. Web eta e-posta helbideak automatikoki klikagarri agertuko dira.

Galdera: Zenbat dira hogei ken bi? (idatzi zenbakiz)
Erantzuna:
e-gorblog

e-gorblog

Egunez, Igor Leturia Azkarate pertsona arrunta da. Errenterian bizi den arrasatearra, 8etatik 17etara Elhuyarren lan egiten du eta arratsaldeak neskalagunarekin eta bere bi umeekin pasatzen ditu.

Baina gaua iritsi eta umeak lotara joaten direnean, e-gor bihurtzen da, interneteko bere alter-egoa, ziberespazioko informatikaririk komikizaleena eta komikizalerik informatikariena! Bere superbotereekin (interneteko kable-konexioa, bloglines, informatika aldizkariak, gadget-ak, komiki-bilduma, Errenteriko liburutegiko komikien atala eta batez ere bere jakinmin aseezina) eta bere superlaguntzaileak ondoan dituela (Patxi Lurra, DabilenHarria...), euskaldunon teknofobiaren eta komikiei buruzko aurreiritzien aurka burrukatzen du etengabe! Hemen duzu bere bloga: e-gorblog!

Bai, hor goiko aurkezpena superheroi batena da (ezin aproposagoa honelako blog batentzat, ezta?). Superheroia banintz zein izango nintzatekeen jakiteko the Superhero Personality Test egin nuen eta hona emaitzak:

You are Spider-Man
You are intelligent, witty, a bit geeky and have great power and responsibility.

Spider-Man
80%
Superman
70%
Green Lantern
65%
Robin
65%
The Flash
60%
Supergirl
55%
Hulk
55%
Iron Man
45%
Wonder Woman
35%
Catwoman
25%
Batman
0%
Lizentzia

Creative Commons-en baimena
Blog honetako edukia, Igor Leturiak eta beste kolaboratzaile batzuek egiten dutena, Creative Commons Aitortu-PartekatuBerdin 3.0 Unported baimen baten mende dago (irudiak salbu).

Harpidetza
Erantzunen harpidetza
Artxiboa
2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019
Artikulu aipagarriak

MythTV sorta
2004/11

"Pololoak" sorta
2004/11-12 - 2006/10-12 - 2007/02-03

Monoblogoa
2005/01/11

"Persepolis", xalotasunaren sakontasuna
2005/01/25

Elgetako Blogs&Beers 2005: nire inpresioa eta moblogging kontuak
2005/04/18

Firefox eta bere plugin zoragarriak
2005/05/11

"El País"-en komiki bilduma
2005/05/15

Euskarazko bi blog berri (bai, beste bi, baina hauek bereziak dira!)
2005/05/25

"Watchmen" sorta
2005/09-11 - 2006/10 - 2007/10 - 2008/07

"La cárcel de papel"-eko "Mis tebeos favoritos" saila I: 1etik 20ra
2005/11/08

"Goienkaria"-n agertu naiz
2005/12/08

Komikiak eta euskal rock-a
2005/12/14

Ruben Arozena "Ruben" komikigilea hil da
2006/01/02

Zope-rako DTML Calendar Tag produktua, euskaraz
2006/02/01

"Joyas Literarias Juveniles" bilduma, osorik eMule-n
2006/08/05

Argazkigintza eta DRM-a
2006/10/09

Paul Auster eta Euskararen Herria
2006/10/29

Angoulême sorta
2007/01-02

Gaur duela 25 urte nire bizitza aldatu zen
2007/04/23

Hergé-ren defentsan
2007/05/22

Ubuntu-ren bertsio berria, hobekuntza askorekin
2007/07/02

OLPC sorta
2007/12 - 2008/01

Guillermo Zubiaga, Marvel-eko komikilari euskalduna
2008/02/05

Asus EEE PC, ordenagailu txiki eta merkeen hurrengo sorta
2008/03/11

Agur, Ipurbeltz, agur... :-(
2008/08/04

"Café Budapest", gizatasuna eta bizikidetzaren aldeko aldarria
2008/08/25

"Arturo Erregea" serie mitikoa, Euskal Encodings-en! (beste askorekin batera)
2008/09/17

"Gazteak", beste serie mitiko bat euskaraz eskuragai!
2008/10/14

Pottokiek 50 urte!
2008/10/22

Europan ere OLPC-ren XO ordenagailuak erosteko aukera!
2008/11/12

Microsoft-en web zerbitzuetako gehienak, euskaraz!
2008/12/04

"Heroes"-en 2. denboraldia: ETB kirtenkeria errepikatzera, eta Euskal Encodings konpontzera
2009/01/23

I. Euskal OLPC Party-a, apirilaren 23an Donostiako Doka kafe antzokian
2009/04/16

Elkarrizketa egin didate 7K-n
2009/06/03

Azpiriren Spectrum-entzako jokoen azalak liburu batean
2009/10/06

Asterix, heroi garaitua
2009/10/29

"Ihes ederra", euskarazko komikigintzaren heldutasunaren konfirmazioa
2009/11/13

Pololoak 3: The making of
2009/11/22

5 urte 5!
2009/12/15

Nobela grafikoa, komikien prestigiorako ala mespretxurako?
2009/12/20

"Pololoak 3 - Atxeritoko balada", trilogiaren amaiera borobila
2010/01/13

Sinclair ZX Spectrum bat oparitu didate!
2010/01/19

Zergatik ez dudan liburu elektronikorik erosiko (gauzak aldatzen ez diren artean)
2010/01/27

Errealitate areagotua: munduaren pertzepzioa aberasten
2010/02/09

e-gorblog, "Nick dut nik" telebista saioan
2010/05/20

Sarearen neutraltasunari erasoak: Interneten izaera arriskuan
2010/06/02

"Avatar, azken aire maisua" osoa eta "Heroiak"-en lehen bi denboraldiak, Euskal Encodings-en
2010/07/22

Sistema eragileen guda berria
2010/12/14

Anubis 3.0 albumarentzat 3D animazio ederra
2010/12/27

Telebistaren benetako iraultza hemen da, eta ez da LTDa
2011/01/10

"Asterix galiarra" eta "Urrezko igitaia" berrargitaratu ditu Salvatek
2011/01/13

Euskarazko komikigintza digitalizazioaren aurrean
2011/01/27

"Ihes ederra"ren gaztelaniazko eta katalanezko bertsioak eta "Alokairuan", kalean
2011/02/20

Star Wars jatorrizko trilogia, euskaraz
2011/03/21

Sare sozialetan preso
2011/04/06

Zer dudan Steve Jobsen, edo Appleren, aurka
2011/10/14

Gaur 100 urte Adèle Blanc-Sec-en abenturak hasi zirela
2011/11/04

Euskarazko 8 komiki berri
2011/12/02

Social networks killed the RSS star?
2012/06/10