Hemen zaude: Hasiera Blogak e-gorblog Artxiboa 2010 Urtarrila 07 Tamainak axola du: testu-bilduma erraldoiak, hizkuntzaren prozesamenduan beharrezkoak
Dokumentu Akzioak

e-gorblog

Tamainak axola du: testu-bilduma erraldoiak, hizkuntzaren prozesamenduan beharrezkoak

Makinei hizkuntzak irakasteko saiakerak hasi zirenetik, eta oraintsu samar arte, hurbiltze intuitiboak eta sinplifikatzaileak erabili izan dira. Hizkuntzalarien ezagutza linguistikoak makinek ulertzeko moduko egituretara pasatzen ziren informatikarien laguntzarekin, eta egitura horien bidez tratatzen zen hizkuntza. Azken urteetan, baina, gero eta gehiago erabiltzen dira corpus handietan eta metodo estatistiko hutsetan oinarritutako teknikak.

(Elhuyar aldizkariko 2009ko azaroko Hizkuntzaren Prozesamenduari —lanbide dudan arloari— eskainitako alean argitaratutako artikuluaren jatorrizko extended bertsioa)

Hizkuntzaren prozesamendua ia-ia ordenagailuen sorreratik existitzen da. Joan den mendeko 40ko hamarkadan sortutako lehen makina elektroniko programagarriak, Bigarren Mundu Gerra medio, batez ere mezuak deszifratu eta kodeak apurtzeko erabili ziren, baina, gerra amaitu ondoren, hizkuntzaren prozesamendua asko lantzen hasi zen, batez ere itzulpen automatikoaren arloan.

Hasiera haietan, batez ere matematikariak aritzen ziren horretan, eta oso teknika sinpleak erabiltzen zituzten, kriptografiaren ohiturek eraginda: funtsean, hiztegien eta hitz-ordenaren aldaketen bidez lortu nahi zuten itzulpen automatikoa. Baina segituan konturatu ziren hizkuntzak hori baino gehiago zirela, eta eredu linguistiko konplexuagoak erabili beharra zegoela. Hala, taldeetan hizkuntzalariak sartzen joan ziren, eta Saussure eta Chomskyren teoriak aplikatzen. Geroztik, eta hamarkada askotan zehar, hizkuntzaren prozesamenduko alor guztietan (morfologian, ortografia-zuzenketan, sintaxian, adieren desanbiguazioan...) hurbiltze bat izan da nagusi: hizkuntzalarien intuizioan oinarritutako ezagutza ordenagailuek tratatu ahal izateko moduko egitura sinpleetara egokitzea (erregelak, zuhaitzak, grafoak, programazio-lengoaiak...).

Baina metodo horiek ere beren mugak dituzte. Alde batetik, hizkuntzalaririk onenek ere ezin dute kontuan izan hizkuntza batek eskaintzen duen kasuistika guztia; bestetik, hizkuntzek konplexutasun eta aberastasun handiegia dute egitura sinpleen bidez adierazteko. Muga horiek, gainera, are handiagoak dira solaserako hizkuntzan. Hala ere, beste biderik ez zegoen; garaiko makinen ahalmena kontuan izanda hori zen hizkuntzarekin aritzeko modu bakarra. Eta, teknika horien bidez, aurrerapena mantso samarra izan da urte askotan.

Corpusen eta estatistikaren etorrera

Azken bi hamarkadetan, baina, hurbiltze enpirikoago bat ari da nagusitzen hizkuntzaren prozesamenduan, testu-bilduma handien ustiaketan eta metodo estatistikoetan oinarritua. Ezagutza intuitiboan oinarritu beharrean, hizkuntza-lagin erreal handiak, hau da, corpusak, erabiltzen dira hizkuntzaren ahalik eta kasu gehien kontuan hartzeko. Eta horien gainean estatistika edo ikasketa automatikoaren gisako metodoak erabiltzen dira, teknika linguistiko gutxi erabiliz. Hizkuntza egitura konputagarrien bidez modelizatzen saiatzen diren kasuetan ere, ereduak corpusetatik erauzten dituzte automatikoki. Horregatik, metodo estatistikoekin lan eginda, makina batek hitz egiteko ahalmena izan dezan, testu-bilduma erraldoi bat eta bilduma horrekin lan egiteko baliabideak izan behar ditu eskuragarri.

Bi faktorek eragin dute nagusiki metodologia-aldaketa hau. Batetik, gaur egungo ordenagailuek, lehengoek ez bezala, datu-kopuru ikaragarriak maneiatzeko gaitasuna dute. Bestetik, inoiz baino testu gehiago dago eskura formatu elektronikoan, batez ere Internet sortuz geroztik.

Hala, corpusak eta teknika estatistikoak erabiltzen dira ortografia-zuzentzaileetan (hitz okerraren antzeko testuinguruak corpusetan bilatuta), itzulpen automatikoan (itzulpen-memoriak edo webgune eleanitzetako testuak erabiliz, hitz, sintagma edo esaldi ahalik eta handienen itzulpenak estatistikoki lortzeko), adieren desanbiguazioan, terminologia-erauzketa automatikoan... Eta orokorrean esan daiteke zenbat eta corpus handiagoak izan orduan eta emaitza hobeak lortzen dituztela sistemek. Adibidez, Googleko Franz Joseph Och-ek bere itzulpen automatiko estatistikoaren sistema aurkeztu zuen 2005eko ACLren (Association for Computational Linguistics) kongresuan, 200.000 milioi hitzeko corpus baten gainean entrenatutakoa. Eta, geroztik, haien sistema da itzulpen automatikoan erreferentzia nagusia eta lehiaketa guztiak irabazten dituena. Eta antzera gertatzen da beste alorretan ere.

Etorkizuna, hibridazioa

Alabaina, metodologia honek ere mugak ditu. Hizkuntza eta ataza batzuetan, corpus benetan erraldoiak erabiltzen dira jadanik, eta esan daiteke honezkero goi-muga jo dutela, oso zaila baitute lortutako emaitzak askoz gehiago hobetzen jarraitzea. Beste hizkuntza eta alor batzuetan ez dago hain corpus handirik, eta metodo estatistiko hutsekin ezin dira hain emaitza onak lortu.

Horregatik, metodo estatistikoak hobetzeko azken aldiko joera da teknika linguistikoekin konbinatzea, eta metodo hibridoak sortzea. Eta etorkizunean ere hori izango da bidea hizkuntzaren prozesamenduan aurrera egiteko. Makinek laster hizkuntza ulertu eta egoki trata dezaten nahi badugu, eta makinek hitz egitea nahi badugu, beharrezko izango da matematikariak, informatikariak eta hizkuntzalariak eskutik joatea.

Erantzuna gehitu

Beheko formularioa betez erantzun bat utzi dezakezu

(Beharrezkoa)
Esaiguzu zure izena
(Beharrezkoa)
(Beharrezkoa)
(Beharrezkoa)
(Beharrezkoa)
Erantzun galderari aurrera jarraitzeko:

Zenbat dira hiru gehi bi? (idatzi zenbakiekin)

Egunkaria libre!
Bidegabekeria salatzeko. Adierazpen askatasuna aldarrikatzeko. Hemen torturatu egiten dela esateko. Auzipetuei elkartasuna adierazteko. Epaiketarik ez genuela nahi gogorarazteko. Epaiketa egingo dutenez, Egunkaria eta auzipetuak libre nahi ditugula erakusteko.
Egunkaria.info
Sustatu - Egunkaria libre

Egunez, Igor Leturia Azkarate pertsona arrunta da. Errenterian bizi den arrasatearra, 8etatik 15etara Elhuyarren lan egiten du eta arratsaldeak neskarekin eta bere bi umeekin pasatzen ditu.

Baina gaua iritsi eta umeak lotara joaten direnean, e-gor bihurtzen da, interneteko bere alter-egoa, ziberespazioko informatikaririk komikizaleena eta komikizalerik informatikariena! Bere superbotereekin (interneteko kable-konexioa, bloglines, informatika aldizkariak, gadget-ak, komiki-bilduma, Errenteriko liburutegiko komikien atala eta batez ere bere jakinmin aseezina) eta bere superlaguntzaileak ondoan dituela (Patxi Lurra, DabilenHarria...), euskaldunon teknofobiaren eta komikiei buruzko aurreiritzien aurka burrukatzen du etengabe! Hemen duzu bere bloga: e-gorblog!

Bai, hor goiko aurkezpena superheroi batena da (ezin aproposagoa honelako blog batentzat, ezta?). Superheroia banintz zein izango nintzatekeen jakiteko the Superhero Personality Test egin nuen eta hona emaitzak:

You are Spider-Man
You are intelligent, witty, a bit geeky and have great power and responsibility.

Spider-Man
80%
Superman
70%
Green Lantern
65%
Robin
65%
The Flash
60%
Supergirl
55%
Hulk
55%
Iron Man
45%
Wonder Woman
35%
Catwoman
25%
Batman
0%
Honi buruz
Kontaktua
Lizentzia: Creative Commons License Attribution-ShareAlike
Artxiboa
Informatika atalaren aurkezpena
Komikien atalaren aurkezpena
Harpidetza
Harpidedunak:
RSS jarioa
E-mail harpidetza
Azken erantzunak
Giancarlorena patxi lurra, 2012/01/22
Ñooooo txu, 2012/01/22
Squareup haritz, 2012/01/14
Re: Gartxot e-gor, 2011/12/05
Gartxot darko, 2011/12/04
Erantzunen harpidetza
Harpidedunak:
RSS jarioa
E-mail harpidetza
Etiketa lainoa
1512 Nafarroa - Amets urratua 300 30x30 3D 3D inprimagailuak 7K APIE-EIEP Adèle Blanc-Sec Agence barbare Aitor Arana Aitor I. Eraña Alan Moore Alfonso Azpiri Alfonso Zapico Alhóndiga Bilbao Aljebra Alokairuan American Splendor AnHitz Android Angoulême Anti- liburudenda Apple Arturo Erregea Asisko Asterix Astiberri Asus EEE PC Atiza Atzipen multimodala Avatar, azken aire maisua Azken garaipena Azken mohikanoak hemen gaude Barakaldoko lehiaketa Bartzelonako komiki-azoka Basaurikomik Batman Bego Montorio Bideo-jokoak Bilboko barrea Bill Watterson Bitcoin Blogs & beers Bordados Bruselako komikiaren museoa Bécassine CSS Café Budapest Calvin & Hobbes Clara-Tanit Arqué Cloud computing Crash comic DRM DTMLCalendar Dani Fano De rerum natura Disney Donostiako komiki-jardunaldiak Dublinés E-book ETB Egunkaria El País El invierno del dibujante El jueves Elhuyar aldizkaria Elkar Emakumeak Errealitate areagotua Escrivá de Balaguer Euskal Encodings Euskal rock Euskaltel Euskomik Facebook Fanxinoteka Firefox Fontanarrosa Francisco Ibáñez Frank Miller Franquin Fructuoso Gaizka Barandiaran Galtzakomik Ganorabako Gartxot Gaston Gauzen Internet Gazteak Geokokapena Getxoko komiki-azoka Giza eskubideak Giza eskubideen lehiaketa Goienkaria Gon Google Google Chrome Google TV Google Wallet Google Wave Gorka Velasco Guillermo Zubiaga HTML 5 Habeko Mik Harriet Hartos de arte Hergé Heroiak Hizkuntza-teknologiak Homosexualitatea IEB IP Ihes ederra In the shadow of no towers Inodoro Pereyra Interneteko bilatzaileak Ipurbeltz Irati Irungo komiki-azoka Iñaki G. Holgado Jacques Tardi Joanes Josep Domingo Nadar Josevisky Joyas literarias juveniles Juan Carlos Egillor Juan Luis Landa Justin Hiriart KKLRD Kinect Komik 10 Krea Kristalezko hiria La fiesta dibujada Le crochet à nuages Les Godillots Linux Literaktum Little Nemo Luis Durán Luis Gasca bilduma Mangamore Mantxi Marjane Satrapi Marko Marrazkirri Martín Romero Marvel María y yo Max Medikuntza alternatiboa Microsoft Miguel Gallardo Mikel Valverde Mikroformatuak Mis tebeos favoritos Moblogging Motsukora Mundu digitala Muraille MythTV Métal Hurlant NFC Nabarra Nafarroako komiki azoka Napartheid Nick dut nik Numenak OLPC Okatxu Otsobeltz Ovni Paco Roca Patxi Gallego Patxi Lurra Paul Auster Pernan Goñi Persepolis Peyo Piztia otzanak Plaza elíptica Poker Face Pololoak Portugaleteko lehiaketa Pottokiak Preso nago RSS Ralf König Raquel Alzate Rekalde-Ortzadar komiki lehiaketa Retine Rober Garay Ruben Arozena Santiago Valenzuela Sare sozialak Sarearen neutraltasuna Sasizientziak Sauré Sautrela Scanlation Scott McCloud Sendabide ala iruzurbide Senez Sherlock Holmes Shin-Chan Sin City Snoopy Star Wars Steve Jobs Supergrupo Tabary Tablet Tanaka Thorgal Tintin Tokitan.tv Torrentocracy UEU Ubuntu Udaberririk ankerrena V for vendetta Watchmen Watson Web semantikoa Willy Roa X-Men XHTML XO Xabiroi ZX Spectrum Zaragozako komiki-azoka Ziberkomikiak Zope bestelakoak e-gorblog gogoetak informatika komikiak
Artikulu aipagarriak
"Pololoak" sorta 2004/11-12 - 2006/10-12 - 2007/02-03
Monoblogoa 2005/01/11
"Watchmen" sorta 2005/09-11 - 2006/10 - 2007/10 - 2008/07
OLPC sorta 2007/12 - 2008/01
5 urte 5! 2009/12/15