Edukira salto egin | Salto egin nabigazioara

Tresna pertsonalak

Eibarko peoria, San Blasa baino hobia
Hemen zaude: Hasiera / Blogak / e-gorblog / Web-corpusen Ataria: Elhuyar I+Gk egindako euskarazko webeko testuen biltegi erraldoia

Web-corpusen Ataria: Elhuyar I+Gk egindako euskarazko webeko testuen biltegi erraldoia

e-gor 2013/04/23 19:15
Elhuyar Fundazioko hizkuntza-teknologien I+G taldekook Web-corpusen Ataria jarri dugu on line. Bertan hiru baliabide jarri ditugu eskura: euskarazko corpus bat (125 milioi hitz ingurukoa), euskara-gaztelania corpus paralelo bat (18 milioi hitz ingurukoa), biak webetik automatikoki eraikiak, eta lehenetik automatikoki erauzitako hitz-konbinazioen kontsulta. Corpusak euskaraz dauden handienetakoak dira, bakoitza bere motakoen artean. Baliabide hauek aurrerapauso handia dira euskararentzat, erabilgarriak baitira ez soilik hizkuntzalaritzarako, baizik eta baita hizkuntza-teknologien garapenerako ere.
Web-corpusen Ataria: Elhuyar I+Gk egindako euskarazko webeko testuen biltegi erraldoia

Irudia: Elhuyar I+G

(Elhuyar aldizkariko 2013ko martxoko zenbakian argitaratutako artikuluaren jatorrizko extended bertsioa)

Hizkuntza batentzat oso garrantzitsua da testu-corpusak edukitzea (azterketa linguistikoak egiteko balio duten testu-bildumak). Hizkuntzalaritza-ikerketetarako, edo hizkuntza-estandarizazioan erabakiak hartzeko datuak lortzeko ezinbestekoak dira. Eta oso baliagarriak dira testu sorkuntzan edo itzulpengintzan ere: hiztegietan agertu ez edo adibide nahikorik ez duten hitzak nola erabili edo nola itzuli izan diren argitu diezagukete.

Baina, horrez gain, corpusek berebiziko garrantzia dute hizkuntza-teknologien munduan. Gaur egungo telefono mugikor adimendunek ekartzen duten ahots-ezagutzako sistemetan, adibidez, corpusak erabiltzen dira guztiz ongi ulertu ez den hitz bat asmatzen saiatzeko, aukeren artean testuinguru horretan probableena zein den corpusetan begiratuta; edo itzulpen automatikoko sistemek, esaterako, corpus paraleloak (elkarren itzulpen diren testuez osatutako corpusak) erabiltzen dituzte ikasteko, 2009ko azaroko zenbakian kontatzen genizuenez.

Zenbat eta corpus handiagoak, hobe

Artikulu hartan bertan azpimarratzen genuen corpus hauek zenbat eta handiagoak izan hobe dela. Hitz arraro baten erabilera kontsultatzeko, agerpen ezberdin gehiago, edo agertzeko aukera gehiago egongo dira corpusa handiagoa bada. Itzulpen automatikorako ere tamaina ahalik eta handieneko corpusak behar dira; horregatik da erreferentzia Google hizkuntza askotako itzulpen automatikoan, bilatzailerako indexatzen dituen testuekin corpus paralelo ikaragarriak osatzen dituelako.

Beste arlo askotan bezala, corpusenean ere baliabide gehiagoko beste hizkuntza batzuen oso atzetik dabil euskara, bai tamainan, bai denboran. Errepara diezaiogun ingelesaren egoerari: corpusgintza modernoaren abiapuntutzat jotzen den ingelesezko Brown corpusa 1964an sortu zen eta milioi bat hitz zituen; 100 milioi hitzeko British National Corpus 1995ekoa da; eta gaur egun, badaude ingelesezko milaka milioi hitzeko corpusak. Ingelesa barne hartzen duten corpus paraleloei dagokienez, Googlek 2005ean abiatutako itzulpen automatikoko sistema 200.000 milioi hitzeko corpus baten gainean entrenatu zen.

Euskaraz, aldiz, lehen corpusa (Euskaltzaindiaren Orotariko Euskal Hiztegiaren testu-corpusa) 1984an egin zen eta 4,6 milioi hitz ditu. Euskaltzaindiak berak egindako XX. Mendeko Euskararen Corpus Estatistikoa 2002an amaitu zen, 6 milioi hitzekin. Elhuyar Fundazioak eta Euskal Herriko Unibertsitateko IXA Taldeak Zientzia eta Teknologiaren Corpusa atera zuten 2006an, 9 milioi hitzekoa. EHUk ere urte horretan egin zuen Ereduzko Prosa Gaur deituriko corpusa, gaur egun 25,1 milioi hitzez osatua. Euskaltzaindiaren Lexikoaren Behatokia 2010ean abiarazi zen, eta egun 26,5 milioi hitz ditu. Corpus paraleloei dagokienez, itzulpen-enpresek dituzte ziurrenik horrelako handienak euren itzulpen-memorietan. Baina publikoarentzat eskuragarri eta hizkuntza-teknologietan erabiltzeko moduan oso gutxi daude; erakunde publiko (HAEEren Itzulpen Zerbitzu Ofiziala, Gipuzkoako Foru Aldundia, Bizkaiko Foru Aldundia...) edo bokazio sozialeko elkarte (EIZIE, Librezale) batzuetako itzulpen-zerbitzuen itzulpen-memoriak eta Eroskiren Consumer aldizkariko corpusa dira erreferentzia bakarrak, baina denak 5 milioi hitzen azpitik daude.

Konponbidea, weba

Arazo hori konpontzeko errezeta Adam Kilgarriff corpusetan adituak ematen zuen lehen aipatutako artikuluan: weba da corpus handiak modu erraz, merke eta azkarrean osatzeko modurik onena. Izan ere, ingelesezko aipatu ditugun azken urteotako corpus erraldoi horiek ere horrela osatu dira, ikusita corpusak era klasikoan osatzea (argitaletxeetara edo komunikabideetara joz) askoz garestiago eta neketsuagoa dela.

Corpusak webetik automatikoki osatzeak baditu bere aurkakoak ere. Haien objekzio nagusia da bertan kalitate eskaseko testu asko aurki daitezkeela. Baina beste ikuspegi batetik ikusita, hori da gaur egungo hizkuntzaren erabilera erreala, eta hori aztertzeko sortu ziren corpusak. Gainera, baliabide askoz gehiago dituzten hizkuntzek webera jo badute, euskararentzat ere hori da bidea atzean gelditu nahi ez badu.

Euskarazko Web-corpusen Ataria

Elhuyar Fundazioko hizkuntza-teknologien I+G taldekook badaramatzagu urte batzuk web-corpusen —hau da, webeko testuekin metodo automatikoak erabiliz eraikitako corpusen— arloa jorratzen. Mota askotako corpusak biltzeko metodoak landu ditugu: euskarazko corpus espezializatuak (jakintza-arlo jakin bateko testuz osatuak), corpus eleaniztun konparagarriak (jakintza-arlo bereko testuz osatuak), corpus paraleloak (elkarren itzulpen diren testuz osatuak), corpus orokor erraldoiak... Horrelakoak egiteko, beharrezkoa da hizkuntza-teknologietako beste teknika batzuk garatzea: bilatzaileen APIetatik hitz jakin batzuk dituzten web-orriak eskuratzekoak, testu baten hizkuntza ezagutzekoak, testu errepikatuak edo oso antzekoak detektatzekoak, web-orriak garbitzekoak (oinak, goiburuak, nabigazio-menuak, copyright-oharrak eta horrelakoak kentzeko eta testuaz soilik gelditzeko), spama apartatzekoak, testu baten jakintza-arloa detektatzekoak, itzulpenak ezagutzekoak...

Tresna horien bidez, aipatutako mota horietako guztietako corpus asko osatu ditugu. Eta orain, corpus horietako batzuk on line jarri ditugu Web-corpusen Atarian: 125 milioi hitzeko euskarazko corpus orokor handi bat (mota horretako orain arteko handiena zen, alde handiz; geroztik atera da handiago bat, EHUren Egungo Testuen Corpusa) eta 18 milioi hitzeko euskara-gaztelania corpus paralelo bat (corpus paralelo publikoen artean handiena). Corpus horien gainean hainbat bilaketa-mota egitea ahalbidetzen da webgunean. Lema edo forma jakin bat edo haien hasiera edo bukaera emanda galde daitezke, gehienez 5 hitzeko distantziara dauden hiru hitz arterainoko konbinaziotan. Paraleloan bi hitz arterainoko konbinazioak galde daitezke, baina hizkuntza batean, bestean edo bietan izan daitezela eska daiteke. Oso baliagarriak dira, biak, hitzak nola erabili edo itzuli izan diren ikusteko.

Horrez gain, corpus elebakarraren gainean teknika linguistiko eta estatistikoak aplikatuta, gehien erabiltzen diren hiru motatako konbinazioak kalkulatu dira (izen-izen, izen-aditz eta izen-adjektibo) eta kontsultagai jarri da. Hala, sistemari galdetu diezaiokegu hitz jakin bat zein aditzekin konbinatu ohi den, edo zein adjektiborekin, eta abar.

Web-corpus elebakarra

Web corpus1
Corpus elebakarraren kontsulta-interfazea. Irudia: Elhuyar I+G

Bildu eta online jarri dugun web-corpus elebakarra euskarazko web-corpus bat da, 124.625.420 testu-hitz dituena. Interneten dauden mota eta arlo guztietako testuak biltzen ditu, eta gaur arte eratu den euskarazko corpusik handiena da. Linguistikoki etiketatuta dago.

Esan bezala, web-corpus hau guztiz automatikoki eratu da, Elhuyar Fundazioaren Hizkuntza eta Teknologia unitateko I+G taldeak garatutako teknologiak erabilita. Web-corpusa biltzeko tresnak ondoko gauzak egiten ditu:

  • Interneteko euskarazko orriak lokalizatu
  • Orri ez-egokiak iragazi
  • Orri errepikatuak edo ia berdinak ezabatu
  • Orritik edukizkoak ez diren atalak kendu (izenburuak, menuak, nabigazio-aukerak, oin-oharrak), testu nagusia baino ez corpuseratzeko.

Corpusaren osaera dela eta, 6.202 domeinutako 82.542 dokumentu ditu. Web-corpusen webguneko eranskina (elebakarra) atalean, domeinuen zerrenda eta bakoitzetik corpuseratutako dokumentuen eta hitzen kopuruak kontsulta daitezke.

Bilketa-metodoari buruz gehiago jakin nahi izanez gero, bibliografian aipatzen den [Leturia, 2012] artikulura jo dezakezu.

Webgune honetan kontsultagai jartzeko, testu guztiak linguistikoki prozesatu eta etiketatu dira. Horretarako, Euskal Herriko Unibertsitateko IXA taldeak garatutako Eustagger etiketatzailea erabili da. Tresna horrek testu-hitz edo token bakoitzari analisi linguistiko bat edo batzuk esleitzen dizkio, eta, atal honetako kontsulta antolatzeko, analisi bakoitzetik lema- eta kategoria-etiketak erabili dira (hitz-konbinazioen atalean eskaintzen den bigrama-erauzketa egiteko eta prozesatzeko, bi horiez gain, kasu- eta mugatasun-etiketak ere erabili dira). Informazio horren bidez, hitzak, beren lema, forma edo kategoriaren arabera bila daitezke. Hori ez ezik, lema edo forma batetik halako distantziara forma, lema edo kategoria jakin bateko hitzak dauden ere kontsulta daiteke. Hainbat aukera daude emaitzak ordenatzeko, eta datu estatistikoak aukeratzeko (ikus webguneko laguntza).

Web-corpus paraleloa

Web corpus 2
Corpus paraleloaren kontsulta-interfazea. Irudia: Elhuyar I+G

Atari honetan kontsultagai dagoen bigarren corpusa euskara-gaztelania corpus paraleloa da. Corpus hau automatikoki osatu da, Elhuyar Fundazioaren Hizkuntza eta Teknologia unitateko I+G taldeak garatutako PaCo2 [San Vicente & Manterola, 2012] tresna erabiliz. Tresna horrek erabiltzaileak aukeratutako bi hizkuntzetan eduki elebiduna duten domeinuak bilatzen ditu Interneten, eta domeinu horietatik elkarren itzulpen diren esaldiak erauzten ditu. 1. taulak corpusaren tamainaren inguruko datuak azaltzen ditu.

euesguztira
Dokumentuak 87.253 87.253 174.506
Corpus gordinak (dokumentu-mailako parekatzea) 34.902.457 42.183.563 77.086.020
Segmentuak (esaldi-mailako parekatzea) - - 659.630
Hitzak (esaldi-mailako parekatzea) 7.891.104 10.862.509 18.753.613

Corpus paraleloaren datu orokorrak

85 domeinutako testuak bildu dira corpusera. Web-corpusen webguneko eranskina (paraleloa) atalean, domeinuen zerrenda eta bakoitzetik corpuseratutako dokumentuen eta hitzen kopuruak kontsulta daitezke.

Gerora, corpusa hazten joango dela aurreikusten dugu. Une honetan, guk dakigula, automatikoki sortutako euskara-gaztelania corpus paralelo elebidunik handiena da.

Bildutako dokumentu elebidunak esaldi-mailan parekatzeko eta segmentuak sortzeko, Hunalign tresna erabili dugu. Ondoren, corpusa linguistikoki prozesatu da, eta etiketatuta dago. Corpus elebakarrean bezala, Euskal Herriko Unibertsitateko IXA taldeak garatutako Eustagger tresna erabili da euskarazko etiketatze linguistikoa egiteko. Gaztelaniazko testuak TreeTagger etiketatzailearen bidez prozesatu dira. Testuko hitz bakoitzari esleitutako informazio linguistikoari esker, corpusaren kontsulta-interfazean lema eta kategoriaren araberako hainbat bilaketa-mota egin daitezke (ikus webguneko laguntza).

Esan beharra dago bilketa automatikoa izateak abantaila argiak dituela, baina arazoak ere bai. Batetik, corpus hau eskuz biltzeak eskatuko lukeen denborak eta ahaleginak bideraezina egingo lukete proiektua. Bestetik, prozesu automatikoa izateak berekin dakar amaierako corpusaren kalitatea optimoa edo erabatekoa ez izatea. Izan ere, ezin dugu bermatu lortutako segmentu guztiak, hau da, esaldi guztien parekatzea, zuzenak direnik. Hainbat arrazoi daude horretarako: dokumentu batzuek itzulpen partzialak besterik ez dituzte, zenbait dokumentu paralelo gisa aurkezten diren arren, hizkuntza batean eta bestean agertzen den edukia ez da berdina... Bestetik, parekatze automatikoa egiten duten tresnen doitasuna ez da % 100koa. Nolanahi ere, gure corpus paraleloak eskaintzen dituen segmentuetatik % 90 zuzenak dira, hau da, elkarren itzulpen diren esaldiak dituzte. Une honetan, bozka-sistema bat lantzen ari gara, erabiltzaileak segmentu bat zuzena ala okerra den adierazteko aukera izan dezan. Horretara, corpusaren kalitatea hobetuz joango da.

Hitz-konbinazioak

Web corpus 3
Hitz-konbinazioen kontsulta-adibidea. Irudia: Elhuyar I+G

Euskarazko web-corpus elebakarretik hiru eratako hitz-konbinazioak erauzi dira, automatikoki: izen+aditz, izen+izen eta izen+izenondo. Fraseologia konputazionaleko lan honetan erabilitako metodologia Elhuyar Fundazioaren Hizkuntza eta Teknologia unitateko I+G taldean diseinatu eta inplementatu da, Euskal Herriko Unibertsitateko IXA taldeko Iñaki Alegria lankide izanik [Gurrutxaga & Alegria, 2011]. Eustagger bidez prozesatutako web-corpus elebakar etiketatutik abiatuta egin dugu lan, eta, hortik aurrerako urratsetako batzuetan, erabilera libreko bi tresna erabili ditugu: Ted Pedersenen Ngram Statistics Package (NSP), bigrama-sorkuntzarako; eta Stefan Everten UCS toolkit, elkartze-neurri estatistikoak kalkulatzeko. Metodologiaren eta ebaluazioaren informazio zehatza du eskura erabiltzaileak bibliografian erreferentziatzen den artikuluan.

Hona hemen aipatu hiru konbinazio-motetako adibide batzuk:

  • izen+aditz konbinazioak: gerrikoa estutu, adarretatik heldu, zubiak eraiki, loa galdu, atentzioa eman, adostasuna lortu, aktari erantsi, kalitateaz arduratu, egunkaria irakurri...
  • izen+izen konbinazioak: arrain-sarda, mahai-jolas, elur-maluta, eguzki-haize, administrazio-kontseilu, energia-eraginkortasun, liburutegi-zerbitzu...
  • izen+izenondo konbinazioak: ardi beltz, aita santu, zulo beltz, ardo ondu, haize fin, aldapa piko, lagun min, xedapen gehigarri, erregai fosil, nobela historiko, liburu interesgarri, partikula kargatu...

Horiek aztertuta, argi ikus daiteke erauzitako konbinazioak edo bigramak ez direla denak idiomatikotasun-maila berekoak: batzuk esapide idiomatikoak (edo lokuzioak) dira, beste batzuk kolokazioak, eta, azkenik, konbinazio libreak ere badaude. Egiten ari garen lanaren helburua da erauzitako konbinazioak idiomatikotasunaren arabera ordenatzeko teknikak garatzea. Izan ere, erabiltzailearentzat esapide idiomatikoak (gerrikoa estutu, adarretatik heldu, zubiak eraiki, aita santu) eta kolokazioak (atentzioa eman, arrain-sarda, lagun min) izaten dira interes handienekoak. izen+izen eta izen+izenondo konbinazioen kasuan, termino teknikoak ere erauzten dira, horietako batzuk idiomatikotasun-maila nabaria dutenak (eguzki-haize, zulo beltz).

Bada, lehen urrats honetan, bigramaren osagaien agerkidetzaren neurketa izan da idiomatikotasuna karakterizatzeko bidea. Egin dugun ikerketan, independenteki eskuz landutako erreferentzia bat erabili da ebaluaziorako, eta emaitza onenak t neurria (t-score) delakoak lortu ditu. Dena den, kontsulta-interfazean, erabiltzaileak, t neurriaz eta maiztasun absolutuaz gain, beste bost neurri estatistiko ditu aukeran, datuak bistaratzeko eta bigramak ordenatzeko.

Kontsulta-interfazeak eskaintzen dituen aukeren berri jakiteko, ikus webguneko laguntza.

Erabilera

Egia da jende gehienak ez duela ohiturarik corpusak erabiltzeko, aipatu ditugun hizkuntzaren espezialistak edo hizkuntza lan-tresnatzat duen jendea dira batez ere corpusen erabiltzaile. Jende gehienak hiztegiak erabiltzen ditu… Baina hiztegietan zerbait ez dagoenean, corpus hauek oso baliagarriak suerta dakizkieke; existitzen direla jakin behar, eta horiek erabiltzeko ohitura hartu behar...

Gainera, corpusek badituzte ezberdintasunak hiztegiekiko. Batetik, hiztegiek helburu preskriptibo edo arauemailea izaten dute; corpusek, aldiz, deskriptiboa. Honek esan nahi du corpusetan hizkuntza nola erabili izan den ikus daitekeela, eta ez soilik nola erabili beharko litzatekeen. Bestetik, hiztegiak egiteak kostu bat dauka eta mugatuak dira halabeharrez, hitz-kopuru zehatz bat eta adibide-kopuru mugatu bat dute soilik. Corpusetan, nahiko handiak izanik, hitz askoz gehiago ager daitezke eta erabilera-adibide gehiago.

Gainera, web-corpus hauek berezitasun batzuk dituzte beste corpusekiko: hain handiak izanik, aukera handiagoa dago beste corpusetan ez dauden hitzak aurkitzeko; hitz berriak ere aurki daitezke, weba etengabe eguneratzen baita; eta webeko erabilera informalaren (blogak, foroak...) berri ere ematen dute, ez soilik argitaletxe edo komunikabideak bezalako iturri editatuenak.

Edonola ere, nahiz eta jende askok zuzenean corpus hauek (edo beste edozein corpus) ez erabili, corpus hauei eta berauek biltzeko garatutako teknologiei esker etorkizunean garatuko diren hizkuntza-teknologiak (ahots-ezagutza, itzulpen automatikoa...) ziur erabiliko direla.

Web-corpusen Atariaren argitaratzea jauzi kualitatibo bat da, lehen aldia baita webetik automatikoki erauzitako corpusak publikoaren eskura jartzen direna, eta baita kuantitatiboa ere, corpusen tamainan aurrerakuntza esanguratsua baita. Koldo Mitxelenak zioen euskararen benetako misterioa ez dela jatorria, iraupena baizik. Misterio handiagoa da etorkizunean iraungo ote duen. Guk ez dugu horren erantzunik, baina iraungo badu zalantzarik gabe hizkuntza-teknologietan presente egon behar du euskarak. Web-corpusen Atariarekin norabide horretan beste pausu bat eman dugula sinetsita gaude Elhuyarren.

Bibliografia

Amatiño
Amatiño dio:
2013/04/23 19:56
Zorionak. Eta eskerrik asko horrenbeste informazio eskaintzeagatik.
Iruzkina gehitu

Erantzuna formulario hau betez utzi dezakezu. Formatua testu arruntarena da. Web eta e-posta helbideak automatikoki klikagarri agertuko dira.

Galdera: Idatzi zortzi zenbakiak erabiliz
Erantzuna:
e-gorblog

e-gorblog

Egunez, Igor Leturia Azkarate pertsona arrunta da. Errenterian bizi den arrasatearra, 8etatik 17etara Elhuyarren lan egiten du eta arratsaldeak neskalagunarekin eta bere bi umeekin pasatzen ditu.

Baina gaua iritsi eta umeak lotara joaten direnean, e-gor bihurtzen da, interneteko bere alter-egoa, ziberespazioko informatikaririk komikizaleena eta komikizalerik informatikariena! Bere superbotereekin (interneteko kable-konexioa, bloglines, informatika aldizkariak, gadget-ak, komiki-bilduma, Errenteriko liburutegiko komikien atala eta batez ere bere jakinmin aseezina) eta bere superlaguntzaileak ondoan dituela (Patxi Lurra, DabilenHarria...), euskaldunon teknofobiaren eta komikiei buruzko aurreiritzien aurka burrukatzen du etengabe! Hemen duzu bere bloga: e-gorblog!

Bai, hor goiko aurkezpena superheroi batena da (ezin aproposagoa honelako blog batentzat, ezta?). Superheroia banintz zein izango nintzatekeen jakiteko the Superhero Personality Test egin nuen eta hona emaitzak:

You are Spider-Man
You are intelligent, witty, a bit geeky and have great power and responsibility.

Spider-Man
80%
Superman
70%
Green Lantern
65%
Robin
65%
The Flash
60%
Supergirl
55%
Hulk
55%
Iron Man
45%
Wonder Woman
35%
Catwoman
25%
Batman
0%
Lizentzia

Creative Commons-en baimena
Blog honetako edukia, Igor Leturiak eta beste kolaboratzaile batzuek egiten dutena, Creative Commons Aitortu-PartekatuBerdin 3.0 Unported baimen baten mende dago (irudiak salbu).

Harpidetza
Erantzunen harpidetza
Artxiboa
2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024
Artikulu aipagarriak

MythTV sorta
2004/11

"Pololoak" sorta
2004/11-12 - 2006/10-12 - 2007/02-03

Monoblogoa
2005/01/11

"Persepolis", xalotasunaren sakontasuna
2005/01/25

Elgetako Blogs&Beers 2005: nire inpresioa eta moblogging kontuak
2005/04/18

Firefox eta bere plugin zoragarriak
2005/05/11

"El País"-en komiki bilduma
2005/05/15

Euskarazko bi blog berri (bai, beste bi, baina hauek bereziak dira!)
2005/05/25

"Watchmen" sorta
2005/09-11 - 2006/10 - 2007/10 - 2008/07

"La cárcel de papel"-eko "Mis tebeos favoritos" saila I: 1etik 20ra
2005/11/08

"Goienkaria"-n agertu naiz
2005/12/08

Komikiak eta euskal rock-a
2005/12/14

Ruben Arozena "Ruben" komikigilea hil da
2006/01/02

Zope-rako DTML Calendar Tag produktua, euskaraz
2006/02/01

"Joyas Literarias Juveniles" bilduma, osorik eMule-n
2006/08/05

Argazkigintza eta DRM-a
2006/10/09

Paul Auster eta Euskararen Herria
2006/10/29

Angoulême sorta
2007/01-02

Gaur duela 25 urte nire bizitza aldatu zen
2007/04/23

Hergé-ren defentsan
2007/05/22

Ubuntu-ren bertsio berria, hobekuntza askorekin
2007/07/02

OLPC sorta
2007/12 - 2008/01

Guillermo Zubiaga, Marvel-eko komikilari euskalduna
2008/02/05

Asus EEE PC, ordenagailu txiki eta merkeen hurrengo sorta
2008/03/11

Agur, Ipurbeltz, agur... :-(
2008/08/04

"Café Budapest", gizatasuna eta bizikidetzaren aldeko aldarria
2008/08/25

"Arturo Erregea" serie mitikoa, Euskal Encodings-en! (beste askorekin batera)
2008/09/17

"Gazteak", beste serie mitiko bat euskaraz eskuragai!
2008/10/14

Pottokiek 50 urte!
2008/10/22

Europan ere OLPC-ren XO ordenagailuak erosteko aukera!
2008/11/12

Microsoft-en web zerbitzuetako gehienak, euskaraz!
2008/12/04

"Heroes"-en 2. denboraldia: ETB kirtenkeria errepikatzera, eta Euskal Encodings konpontzera
2009/01/23

I. Euskal OLPC Party-a, apirilaren 23an Donostiako Doka kafe antzokian
2009/04/16

Elkarrizketa egin didate 7K-n
2009/06/03

Azpiriren Spectrum-entzako jokoen azalak liburu batean
2009/10/06

Asterix, heroi garaitua
2009/10/29

"Ihes ederra", euskarazko komikigintzaren heldutasunaren konfirmazioa
2009/11/13

Pololoak 3: The making of
2009/11/22

5 urte 5!
2009/12/15

Nobela grafikoa, komikien prestigiorako ala mespretxurako?
2009/12/20

"Pololoak 3 - Atxeritoko balada", trilogiaren amaiera borobila
2010/01/13

Sinclair ZX Spectrum bat oparitu didate!
2010/01/19

Zergatik ez dudan liburu elektronikorik erosiko (gauzak aldatzen ez diren artean)
2010/01/27

Errealitate areagotua: munduaren pertzepzioa aberasten
2010/02/09

e-gorblog, "Nick dut nik" telebista saioan
2010/05/20

Sarearen neutraltasunari erasoak: Interneten izaera arriskuan
2010/06/02

"Avatar, azken aire maisua" osoa eta "Heroiak"-en lehen bi denboraldiak, Euskal Encodings-en
2010/07/22

Sistema eragileen guda berria
2010/12/14

Anubis 3.0 albumarentzat 3D animazio ederra
2010/12/27

Telebistaren benetako iraultza hemen da, eta ez da LTDa
2011/01/10

"Asterix galiarra" eta "Urrezko igitaia" berrargitaratu ditu Salvatek
2011/01/13

Euskarazko komikigintza digitalizazioaren aurrean
2011/01/27

"Ihes ederra"ren gaztelaniazko eta katalanezko bertsioak eta "Alokairuan", kalean
2011/02/20

Star Wars jatorrizko trilogia, euskaraz
2011/03/21

Sare sozialetan preso
2011/04/06

Zer dudan Steve Jobsen, edo Appleren, aurka
2011/10/14

Gaur 100 urte Adèle Blanc-Sec-en abenturak hasi zirela
2011/11/04

Euskarazko 8 komiki berri
2011/12/02

Social networks killed the RSS star?
2012/06/10