Edukira salto egin | Salto egin nabigazioara

Tresna pertsonalak

Eibarko peoria, San Blasa baino hobia
Hemen zaude: Hasiera / Blogak / e-gorblog / Tamainak axola du: testu-bilduma erraldoiak, hizkuntzaren prozesamenduan beharrezkoak

Tamainak axola du: testu-bilduma erraldoiak, hizkuntzaren prozesamenduan beharrezkoak

e-gor 2010/01/07 21:30
Makinei hizkuntzak irakasteko saiakerak hasi zirenetik, eta oraintsu samar arte, hurbiltze intuitiboak eta sinplifikatzaileak erabili izan dira. Hizkuntzalarien ezagutza linguistikoak makinek ulertzeko moduko egituretara pasatzen ziren informatikarien laguntzarekin, eta egitura horien bidez tratatzen zen hizkuntza. Azken urteetan, baina, gero eta gehiago erabiltzen dira corpus handietan eta metodo estatistiko hutsetan oinarritutako teknikak.
(Elhuyar aldizkariko 2009ko azaroko Hizkuntzaren Prozesamenduari —lanbide dudan arloari— eskainitako alean argitaratutako artikuluaren jatorrizko extended bertsioa)

Hizkuntzaren prozesamendua ia-ia ordenagailuen sorreratik existitzen da. Joan den mendeko 40ko hamarkadan sortutako lehen makina elektroniko programagarriak, Bigarren Mundu Gerra medio, batez ere mezuak deszifratu eta kodeak apurtzeko erabili ziren, baina, gerra amaitu ondoren, hizkuntzaren prozesamendua asko lantzen hasi zen, batez ere itzulpen automatikoaren arloan.

Hasiera haietan, batez ere matematikariak aritzen ziren horretan, eta oso teknika sinpleak erabiltzen zituzten, kriptografiaren ohiturek eraginda: funtsean, hiztegien eta hitz-ordenaren aldaketen bidez lortu nahi zuten itzulpen automatikoa. Baina segituan konturatu ziren hizkuntzak hori baino gehiago zirela, eta eredu linguistiko konplexuagoak erabili beharra zegoela. Hala, taldeetan hizkuntzalariak sartzen joan ziren, eta Saussure eta Chomskyren teoriak aplikatzen. Geroztik, eta hamarkada askotan zehar, hizkuntzaren prozesamenduko alor guztietan (morfologian, ortografia-zuzenketan, sintaxian, adieren desanbiguazioan...) hurbiltze bat izan da nagusi: hizkuntzalarien intuizioan oinarritutako ezagutza ordenagailuek tratatu ahal izateko moduko egitura sinpleetara egokitzea (erregelak, zuhaitzak, grafoak, programazio-lengoaiak...).

Baina metodo horiek ere beren mugak dituzte. Alde batetik, hizkuntzalaririk onenek ere ezin dute kontuan izan hizkuntza batek eskaintzen duen kasuistika guztia; bestetik, hizkuntzek konplexutasun eta aberastasun handiegia dute egitura sinpleen bidez adierazteko. Muga horiek, gainera, are handiagoak dira solaserako hizkuntzan. Hala ere, beste biderik ez zegoen; garaiko makinen ahalmena kontuan izanda hori zen hizkuntzarekin aritzeko modu bakarra. Eta, teknika horien bidez, aurrerapena mantso samarra izan da urte askotan.

Corpusen eta estatistikaren etorrera

Azken bi hamarkadetan, baina, hurbiltze enpirikoago bat ari da nagusitzen hizkuntzaren prozesamenduan, testu-bilduma handien ustiaketan eta metodo estatistikoetan oinarritua. Ezagutza intuitiboan oinarritu beharrean, hizkuntza-lagin erreal handiak, hau da, corpusak, erabiltzen dira hizkuntzaren ahalik eta kasu gehien kontuan hartzeko. Eta horien gainean estatistika edo ikasketa automatikoaren gisako metodoak erabiltzen dira, teknika linguistiko gutxi erabiliz. Hizkuntza egitura konputagarrien bidez modelizatzen saiatzen diren kasuetan ere, ereduak corpusetatik erauzten dituzte automatikoki. Horregatik, metodo estatistikoekin lan eginda, makina batek hitz egiteko ahalmena izan dezan, testu-bilduma erraldoi bat eta bilduma horrekin lan egiteko baliabideak izan behar ditu eskuragarri.

Bi faktorek eragin dute nagusiki metodologia-aldaketa hau. Batetik, gaur egungo ordenagailuek, lehengoek ez bezala, datu-kopuru ikaragarriak maneiatzeko gaitasuna dute. Bestetik, inoiz baino testu gehiago dago eskura formatu elektronikoan, batez ere Internet sortuz geroztik.

Hala, corpusak eta teknika estatistikoak erabiltzen dira ortografia-zuzentzaileetan (hitz okerraren antzeko testuinguruak corpusetan bilatuta), itzulpen automatikoan (itzulpen-memoriak edo webgune eleanitzetako testuak erabiliz, hitz, sintagma edo esaldi ahalik eta handienen itzulpenak estatistikoki lortzeko), adieren desanbiguazioan, terminologia-erauzketa automatikoan... Eta orokorrean esan daiteke zenbat eta corpus handiagoak izan orduan eta emaitza hobeak lortzen dituztela sistemek. Adibidez, Googleko Franz Joseph Och-ek bere itzulpen automatiko estatistikoaren sistema aurkeztu zuen 2005eko ACLren (Association for Computational Linguistics) kongresuan, 200.000 milioi hitzeko corpus baten gainean entrenatutakoa. Eta, geroztik, haien sistema da itzulpen automatikoan erreferentzia nagusia eta lehiaketa guztiak irabazten dituena. Eta antzera gertatzen da beste alorretan ere.

Etorkizuna, hibridazioa

Alabaina, metodologia honek ere mugak ditu. Hizkuntza eta ataza batzuetan, corpus benetan erraldoiak erabiltzen dira jadanik, eta esan daiteke honezkero goi-muga jo dutela, oso zaila baitute lortutako emaitzak askoz gehiago hobetzen jarraitzea. Beste hizkuntza eta alor batzuetan ez dago hain corpus handirik, eta metodo estatistiko hutsekin ezin dira hain emaitza onak lortu.

Horregatik, metodo estatistikoak hobetzeko azken aldiko joera da teknika linguistikoekin konbinatzea, eta metodo hibridoak sortzea. Eta etorkizunean ere hori izango da bidea hizkuntzaren prozesamenduan aurrera egiteko. Makinek laster hizkuntza ulertu eta egoki trata dezaten nahi badugu, eta makinek hitz egitea nahi badugu, beharrezko izango da matematikariak, informatikariak eta hizkuntzalariak eskutik joatea.

Iruzkina gehitu

Erantzuna formulario hau betez utzi dezakezu. Formatua testu arruntarena da. Web eta e-posta helbideak automatikoki klikagarri agertuko dira.

Galdera: Zenbat dira hiru ken lau (idatzi zenbakiz) ?
Erantzuna:
e-gorblog

e-gorblog

Egunez, Igor Leturia Azkarate pertsona arrunta da. Errenterian bizi den arrasatearra, 8etatik 17etara Elhuyarren lan egiten du eta arratsaldeak neskalagunarekin eta bere bi umeekin pasatzen ditu.

Baina gaua iritsi eta umeak lotara joaten direnean, e-gor bihurtzen da, interneteko bere alter-egoa, ziberespazioko informatikaririk komikizaleena eta komikizalerik informatikariena! Bere superbotereekin (interneteko kable-konexioa, bloglines, informatika aldizkariak, gadget-ak, komiki-bilduma, Errenteriko liburutegiko komikien atala eta batez ere bere jakinmin aseezina) eta bere superlaguntzaileak ondoan dituela (Patxi Lurra, DabilenHarria...), euskaldunon teknofobiaren eta komikiei buruzko aurreiritzien aurka burrukatzen du etengabe! Hemen duzu bere bloga: e-gorblog!

Bai, hor goiko aurkezpena superheroi batena da (ezin aproposagoa honelako blog batentzat, ezta?). Superheroia banintz zein izango nintzatekeen jakiteko the Superhero Personality Test egin nuen eta hona emaitzak:

You are Spider-Man
You are intelligent, witty, a bit geeky and have great power and responsibility.

Spider-Man
80%
Superman
70%
Green Lantern
65%
Robin
65%
The Flash
60%
Supergirl
55%
Hulk
55%
Iron Man
45%
Wonder Woman
35%
Catwoman
25%
Batman
0%
Lizentzia

Creative Commons-en baimena
Blog honetako edukia, Igor Leturiak eta beste kolaboratzaile batzuek egiten dutena, Creative Commons Aitortu-PartekatuBerdin 3.0 Unported baimen baten mende dago (irudiak salbu).

Harpidetza
Erantzunen harpidetza
Artxiboa
2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019
Artikulu aipagarriak

MythTV sorta
2004/11

"Pololoak" sorta
2004/11-12 - 2006/10-12 - 2007/02-03

Monoblogoa
2005/01/11

"Persepolis", xalotasunaren sakontasuna
2005/01/25

Elgetako Blogs&Beers 2005: nire inpresioa eta moblogging kontuak
2005/04/18

Firefox eta bere plugin zoragarriak
2005/05/11

"El País"-en komiki bilduma
2005/05/15

Euskarazko bi blog berri (bai, beste bi, baina hauek bereziak dira!)
2005/05/25

"Watchmen" sorta
2005/09-11 - 2006/10 - 2007/10 - 2008/07

"La cárcel de papel"-eko "Mis tebeos favoritos" saila I: 1etik 20ra
2005/11/08

"Goienkaria"-n agertu naiz
2005/12/08

Komikiak eta euskal rock-a
2005/12/14

Ruben Arozena "Ruben" komikigilea hil da
2006/01/02

Zope-rako DTML Calendar Tag produktua, euskaraz
2006/02/01

"Joyas Literarias Juveniles" bilduma, osorik eMule-n
2006/08/05

Argazkigintza eta DRM-a
2006/10/09

Paul Auster eta Euskararen Herria
2006/10/29

Angoulême sorta
2007/01-02

Gaur duela 25 urte nire bizitza aldatu zen
2007/04/23

Hergé-ren defentsan
2007/05/22

Ubuntu-ren bertsio berria, hobekuntza askorekin
2007/07/02

OLPC sorta
2007/12 - 2008/01

Guillermo Zubiaga, Marvel-eko komikilari euskalduna
2008/02/05

Asus EEE PC, ordenagailu txiki eta merkeen hurrengo sorta
2008/03/11

Agur, Ipurbeltz, agur... :-(
2008/08/04

"Café Budapest", gizatasuna eta bizikidetzaren aldeko aldarria
2008/08/25

"Arturo Erregea" serie mitikoa, Euskal Encodings-en! (beste askorekin batera)
2008/09/17

"Gazteak", beste serie mitiko bat euskaraz eskuragai!
2008/10/14

Pottokiek 50 urte!
2008/10/22

Europan ere OLPC-ren XO ordenagailuak erosteko aukera!
2008/11/12

Microsoft-en web zerbitzuetako gehienak, euskaraz!
2008/12/04

"Heroes"-en 2. denboraldia: ETB kirtenkeria errepikatzera, eta Euskal Encodings konpontzera
2009/01/23

I. Euskal OLPC Party-a, apirilaren 23an Donostiako Doka kafe antzokian
2009/04/16

Elkarrizketa egin didate 7K-n
2009/06/03

Azpiriren Spectrum-entzako jokoen azalak liburu batean
2009/10/06

Asterix, heroi garaitua
2009/10/29

"Ihes ederra", euskarazko komikigintzaren heldutasunaren konfirmazioa
2009/11/13

Pololoak 3: The making of
2009/11/22

5 urte 5!
2009/12/15

Nobela grafikoa, komikien prestigiorako ala mespretxurako?
2009/12/20

"Pololoak 3 - Atxeritoko balada", trilogiaren amaiera borobila
2010/01/13

Sinclair ZX Spectrum bat oparitu didate!
2010/01/19

Zergatik ez dudan liburu elektronikorik erosiko (gauzak aldatzen ez diren artean)
2010/01/27

Errealitate areagotua: munduaren pertzepzioa aberasten
2010/02/09

e-gorblog, "Nick dut nik" telebista saioan
2010/05/20

Sarearen neutraltasunari erasoak: Interneten izaera arriskuan
2010/06/02

"Avatar, azken aire maisua" osoa eta "Heroiak"-en lehen bi denboraldiak, Euskal Encodings-en
2010/07/22

Sistema eragileen guda berria
2010/12/14

Anubis 3.0 albumarentzat 3D animazio ederra
2010/12/27

Telebistaren benetako iraultza hemen da, eta ez da LTDa
2011/01/10

"Asterix galiarra" eta "Urrezko igitaia" berrargitaratu ditu Salvatek
2011/01/13

Euskarazko komikigintza digitalizazioaren aurrean
2011/01/27

"Ihes ederra"ren gaztelaniazko eta katalanezko bertsioak eta "Alokairuan", kalean
2011/02/20

Star Wars jatorrizko trilogia, euskaraz
2011/03/21

Sare sozialetan preso
2011/04/06

Zer dudan Steve Jobsen, edo Appleren, aurka
2011/10/14

Gaur 100 urte Adèle Blanc-Sec-en abenturak hasi zirela
2011/11/04

Euskarazko 8 komiki berri
2011/12/02

Social networks killed the RSS star?
2012/06/10