Edukira salto egin | Salto egin nabigazioara

Tresna pertsonalak

Eibarko peoria, San Blasa baino hobia
Hemen zaude: Hasiera / Blogak / e-gorblog

e-gorren blog pertsonala (komikiak, informatika eta beste)

Web-corpusen Ataria: Elhuyar I+Gk egindako euskarazko webeko testuen biltegi erraldoia

e-gor 2013/04/23 19:15
Elhuyar Fundazioko hizkuntza-teknologien I+G taldekook Web-corpusen Ataria jarri dugu on line. Bertan hiru baliabide jarri ditugu eskura: euskarazko corpus bat (125 milioi hitz ingurukoa), euskara-gaztelania corpus paralelo bat (18 milioi hitz ingurukoa), biak webetik automatikoki eraikiak, eta lehenetik automatikoki erauzitako hitz-konbinazioen kontsulta. Corpusak euskaraz dauden handienetakoak dira, bakoitza bere motakoen artean. Baliabide hauek aurrerapauso handia dira euskararentzat, erabilgarriak baitira ez soilik hizkuntzalaritzarako, baizik eta baita hizkuntza-teknologien garapenerako ere.
(Elhuyar aldizkariko 2013ko martxoko zenbakian argitaratutako artikuluaren jatorrizko extended bertsioa)

Web-corpusen Atariko pantaila-irudi bat
Irudia: Elhuyar I+G

Hizkuntza batentzat oso garrantzitsua da testu-corpusak edukitzea (azterketa linguistikoak egiteko balio duten testu-bildumak). Hizkuntzalaritza-ikerketetarako, edo hizkuntza-estandarizazioan erabakiak hartzeko datuak lortzeko ezinbestekoak dira. Eta oso baliagarriak dira testu sorkuntzan edo itzulpengintzan ere: hiztegietan agertu ez edo adibide nahikorik ez duten hitzak nola erabili edo nola itzuli izan diren argitu diezagukete.

Baina, horrez gain, corpusek berebiziko garrantzia dute hizkuntza-teknologien munduan. Gaur egungo telefono mugikor adimendunek ekartzen duten ahots-ezagutzako sistemetan, adibidez, corpusak erabiltzen dira guztiz ongi ulertu ez den hitz bat asmatzen saiatzeko, aukeren artean testuinguru horretan probableena zein den corpusetan begiratuta; edo itzulpen automatikoko sistemek, esaterako, corpus paraleloak (elkarren itzulpen diren testuez osatutako corpusak) erabiltzen dituzte ikasteko, 2009ko azaroko zenbakian kontatzen genizuenez.

Zenbat eta corpus handiagoak, hobe

Artikulu hartan bertan azpimarratzen genuen corpus hauek zenbat eta handiagoak izan hobe dela. Hitz arraro baten erabilera kontsultatzeko, agerpen ezberdin gehiago, edo agertzeko aukera gehiago egongo dira corpusa handiagoa bada. Itzulpen automatikorako ere tamaina ahalik eta handieneko corpusak behar dira; horregatik da erreferentzia Google hizkuntza askotako itzulpen automatikoan, bilatzailerako indexatzen dituen testuekin corpus paralelo ikaragarriak osatzen dituelako.

Beste arlo askotan bezala, corpusenean ere baliabide gehiagoko beste hizkuntza batzuen oso atzetik dabil euskara, bai tamainan, bai denboran. Errepara diezaiogun ingelesaren egoerari: corpusgintza modernoaren abiapuntutzat jotzen den ingelesezko Brown corpusa 1964an sortu zen eta milioi bat hitz zituen; 100 milioi hitzeko British National Corpus 1995ekoa da; eta gaur egun, badaude ingelesezko milaka milioi hitzeko corpusak. Ingelesa barne hartzen duten corpus paraleloei dagokienez, Googlek 2005ean abiatutako itzulpen automatikoko sistema 200.000 milioi hitzeko corpus baten gainean entrenatu zen.

Euskaraz, aldiz, lehen corpusa (Euskaltzaindiaren Orotariko Euskal Hiztegiaren testu-corpusa) 1984an egin zen eta 4,6 milioi hitz ditu. Euskaltzaindiak berak egindako XX. Mendeko Euskararen Corpus Estatistikoa 2002an amaitu zen, 6 milioi hitzekin. Elhuyar Fundazioak eta Euskal Herriko Unibertsitateko IXA Taldeak Zientzia eta Teknologiaren Corpusa atera zuten 2006an, 9 milioi hitzekoa. EHUk ere urte horretan egin zuen Ereduzko Prosa Gaur deituriko corpusa, gaur egun 25,1 milioi hitzez osatua. Euskaltzaindiaren Lexikoaren Behatokia 2010ean abiarazi zen, eta egun 26,5 milioi hitz ditu. Corpus paraleloei dagokienez, itzulpen-enpresek dituzte ziurrenik horrelako handienak euren itzulpen-memorietan. Baina publikoarentzat eskuragarri eta hizkuntza-teknologietan erabiltzeko moduan oso gutxi daude; erakunde publiko (HAEEren Itzulpen Zerbitzu Ofiziala, Gipuzkoako Foru Aldundia, Bizkaiko Foru Aldundia...) edo bokazio sozialeko elkarte (EIZIE, Librezale) batzuetako itzulpen-zerbitzuen itzulpen-memoriak eta Eroskiren Consumer aldizkariko corpusa dira erreferentzia bakarrak, baina denak 5 milioi hitzen azpitik daude.

Konponbidea, weba

Arazo hori konpontzeko errezeta Adam Kilgarriff corpusetan adituak ematen zuen lehen aipatutako artikuluan: weba da corpus handiak modu erraz, merke eta azkarrean osatzeko modurik onena. Izan ere, ingelesezko aipatu ditugun azken urteotako corpus erraldoi horiek ere horrela osatu dira, ikusita corpusak era klasikoan osatzea (argitaletxeetara edo komunikabideetara joz) askoz garestiago eta neketsuagoa dela.

Corpusak webetik automatikoki osatzeak baditu bere aurkakoak ere. Haien objekzio nagusia da bertan kalitate eskaseko testu asko aurki daitezkeela. Baina beste ikuspegi batetik ikusita, hori da gaur egungo hizkuntzaren erabilera erreala, eta hori aztertzeko sortu ziren corpusak. Gainera, baliabide askoz gehiago dituzten hizkuntzek webera jo badute, euskararentzat ere hori da bidea atzean gelditu nahi ez badu.

Euskarazko Web-corpusen Ataria

Elhuyar Fundazioko hizkuntza-teknologien I+G taldekook badaramatzagu urte batzuk web-corpusen —hau da, webeko testuekin metodo automatikoak erabiliz eraikitako corpusen— arloa jorratzen. Mota askotako corpusak biltzeko metodoak landu ditugu: euskarazko corpus espezializatuak (jakintza-arlo jakin bateko testuz osatuak), corpus eleaniztun konparagarriak (jakintza-arlo bereko testuz osatuak), corpus paraleloak (elkarren itzulpen diren testuz osatuak), corpus orokor erraldoiak... Horrelakoak egiteko, beharrezkoa da hizkuntza-teknologietako beste teknika batzuk garatzea: bilatzaileen APIetatik hitz jakin batzuk dituzten web-orriak eskuratzekoak, testu baten hizkuntza ezagutzekoak, testu errepikatuak edo oso antzekoak detektatzekoak, web-orriak garbitzekoak (oinak, goiburuak, nabigazio-menuak, copyright-oharrak eta horrelakoak kentzeko eta testuaz soilik gelditzeko), spama apartatzekoak, testu baten jakintza-arloa detektatzekoak, itzulpenak ezagutzekoak...

Tresna horien bidez, aipatutako mota horietako guztietako corpus asko osatu ditugu. Eta orain, corpus horietako batzuk on line jarri ditugu Web-corpusen Atarian: 125 milioi hitzeko euskarazko corpus orokor handi bat (mota horretako orain arteko handiena zen, alde handiz; geroztik atera da handiago bat, EHUren Egungo Testuen Corpusa) eta 18 milioi hitzeko euskara-gaztelania corpus paralelo bat (corpus paralelo publikoen artean handiena). Corpus horien gainean hainbat bilaketa-mota egitea ahalbidetzen da webgunean. Lema edo forma jakin bat edo haien hasiera edo bukaera emanda galde daitezke, gehienez 5 hitzeko distantziara dauden hiru hitz arterainoko konbinaziotan. Paraleloan bi hitz arterainoko konbinazioak galde daitezke, baina hizkuntza batean, bestean edo bietan izan daitezela eska daiteke. Oso baliagarriak dira, biak, hitzak nola erabili edo itzuli izan diren ikusteko.

Horrez gain, corpus elebakarraren gainean teknika linguistiko eta estatistikoak aplikatuta, gehien erabiltzen diren hiru motatako konbinazioak kalkulatu dira (izen-izen, izen-aditz eta izen-adjektibo) eta kontsultagai jarri da. Hala, sistemari galdetu diezaiokegu hitz jakin bat zein aditzekin konbinatu ohi den, edo zein adjektiborekin, eta abar.

Web-corpus elebakarra

Web-corpusen Atariko pantaila-irudi bat
Corpus elebakarraren kontsulta-interfazea. Irudia: Elhuyar I+G

Bildu eta online jarri dugun web-corpus elebakarra euskarazko web-corpus bat da, 124.625.420 testu-hitz dituena. Interneten dauden mota eta arlo guztietako testuak biltzen ditu, eta gaur arte eratu den euskarazko corpusik handiena da. Linguistikoki etiketatuta dago.

Esan bezala, web-corpus hau guztiz automatikoki eratu da, Elhuyar Fundazioaren Hizkuntza eta Teknologia unitateko I+G taldeak garatutako teknologiak erabilita. Web-corpusa biltzeko tresnak ondoko gauzak egiten ditu:

  • Interneteko euskarazko orriak lokalizatu
  • Orri ez-egokiak iragazi
  • Orri errepikatuak edo ia berdinak ezabatu
  • Orritik edukizkoak ez diren atalak kendu (izenburuak, menuak, nabigazio-aukerak, oin-oharrak), testu nagusia baino ez corpuseratzeko.

Corpusaren osaera dela eta, 6.202 domeinutako 82.542 dokumentu ditu. Web-corpusen webguneko eranskina (elebakarra) atalean, domeinuen zerrenda eta bakoitzetik corpuseratutako dokumentuen eta hitzen kopuruak kontsulta daitezke.

Bilketa-metodoari buruz gehiago jakin nahi izanez gero, bibliografian aipatzen den [Leturia, 2012] artikulura jo dezakezu.

Webgune honetan kontsultagai jartzeko, testu guztiak linguistikoki prozesatu eta etiketatu dira. Horretarako, Euskal Herriko Unibertsitateko IXA taldeak garatutako Eustagger etiketatzailea erabili da. Tresna horrek testu-hitz edo token bakoitzari analisi linguistiko bat edo batzuk esleitzen dizkio, eta, atal honetako kontsulta antolatzeko, analisi bakoitzetik lema- eta kategoria-etiketak erabili dira (hitz-konbinazioen atalean eskaintzen den bigrama-erauzketa egiteko eta prozesatzeko, bi horiez gain, kasu- eta mugatasun-etiketak ere erabili dira). Informazio horren bidez, hitzak, beren lema, forma edo kategoriaren arabera bila daitezke. Hori ez ezik, lema edo forma batetik halako distantziara forma, lema edo kategoria jakin bateko hitzak dauden ere kontsulta daiteke. Hainbat aukera daude emaitzak ordenatzeko, eta datu estatistikoak aukeratzeko (ikus webguneko laguntza).

Web-corpus paraleloa

Web-corpusen Atariko pantaila-irudi bat
Corpus paraleloaren kontsulta-interfazea. Irudia: Elhuyar I+G

Atari honetan kontsultagai dagoen bigarren corpusa euskara-gaztelania corpus paraleloa da. Corpus hau automatikoki osatu da, Elhuyar Fundazioaren Hizkuntza eta Teknologia unitateko I+G taldeak garatutako PaCo2 [San Vicente & Manterola, 2012] tresna erabiliz. Tresna horrek erabiltzaileak aukeratutako bi hizkuntzetan eduki elebiduna duten domeinuak bilatzen ditu Interneten, eta domeinu horietatik elkarren itzulpen diren esaldiak erauzten ditu. 1. taulak corpusaren tamainaren inguruko datuak azaltzen ditu.

euesguztira
Dokumentuak 87.253 87.253 174.506
Corpus gordinak (dokumentu-mailako parekatzea) 34.902.457 42.183.563 77.086.020
Segmentuak (esaldi-mailako parekatzea) - - 659.630
Hitzak (esaldi-mailako parekatzea) 7.891.104 10.862.509 18.753.613

Corpus paraleloaren datu orokorrak

85 domeinutako testuak bildu dira corpusera. Web-corpusen webguneko eranskina (paraleloa) atalean, domeinuen zerrenda eta bakoitzetik corpuseratutako dokumentuen eta hitzen kopuruak kontsulta daitezke.

Gerora, corpusa hazten joango dela aurreikusten dugu. Une honetan, guk dakigula, automatikoki sortutako euskara-gaztelania corpus paralelo elebidunik handiena da.

Bildutako dokumentu elebidunak esaldi-mailan parekatzeko eta segmentuak sortzeko, Hunalign tresna erabili dugu. Ondoren, corpusa linguistikoki prozesatu da, eta etiketatuta dago. Corpus elebakarrean bezala, Euskal Herriko Unibertsitateko IXA taldeak garatutako Eustagger tresna erabili da euskarazko etiketatze linguistikoa egiteko. Gaztelaniazko testuak TreeTagger etiketatzailearen bidez prozesatu dira. Testuko hitz bakoitzari esleitutako informazio linguistikoari esker, corpusaren kontsulta-interfazean lema eta kategoriaren araberako hainbat bilaketa-mota egin daitezke (ikus webguneko laguntza).

Esan beharra dago bilketa automatikoa izateak abantaila argiak dituela, baina arazoak ere bai. Batetik, corpus hau eskuz biltzeak eskatuko lukeen denborak eta ahaleginak bideraezina egingo lukete proiektua. Bestetik, prozesu automatikoa izateak berekin dakar amaierako corpusaren kalitatea optimoa edo erabatekoa ez izatea. Izan ere, ezin dugu bermatu lortutako segmentu guztiak, hau da, esaldi guztien parekatzea, zuzenak direnik. Hainbat arrazoi daude horretarako: dokumentu batzuek itzulpen partzialak besterik ez dituzte, zenbait dokumentu paralelo gisa aurkezten diren arren, hizkuntza batean eta bestean agertzen den edukia ez da berdina... Bestetik, parekatze automatikoa egiten duten tresnen doitasuna ez da % 100koa. Nolanahi ere, gure corpus paraleloak eskaintzen dituen segmentuetatik % 90 zuzenak dira, hau da, elkarren itzulpen diren esaldiak dituzte. Une honetan, bozka-sistema bat lantzen ari gara, erabiltzaileak segmentu bat zuzena ala okerra den adierazteko aukera izan dezan. Horretara, corpusaren kalitatea hobetuz joango da.

Hitz-konbinazioak

Web-corpusen Atariko pantaila-irudi bat
Hitz-konbinazioen kontsulta-adibidea. Irudia: Elhuyar I+G

Euskarazko web-corpus elebakarretik hiru eratako hitz-konbinazioak erauzi dira, automatikoki: izen+aditz, izen+izen eta izen+izenondo. Fraseologia konputazionaleko lan honetan erabilitako metodologia Elhuyar Fundazioaren Hizkuntza eta Teknologia unitateko I+G taldean diseinatu eta inplementatu da, Euskal Herriko Unibertsitateko IXA taldeko Iñaki Alegria lankide izanik [Gurrutxaga & Alegria, 2011]. Eustagger bidez prozesatutako web-corpus elebakar etiketatutik abiatuta egin dugu lan, eta, hortik aurrerako urratsetako batzuetan, erabilera libreko bi tresna erabili ditugu: Ted Pedersenen Ngram Statistics Package (NSP), bigrama-sorkuntzarako; eta Stefan Everten UCS toolkit, elkartze-neurri estatistikoak kalkulatzeko. Metodologiaren eta ebaluazioaren informazio zehatza du eskura erabiltzaileak bibliografian erreferentziatzen den artikuluan.

Hona hemen aipatu hiru konbinazio-motetako adibide batzuk:

  • izen+aditz konbinazioak: gerrikoa estutu, adarretatik heldu, zubiak eraiki, loa galdu, atentzioa eman, adostasuna lortu, aktari erantsi, kalitateaz arduratu, egunkaria irakurri...
  • izen+izen konbinazioak: arrain-sarda, mahai-jolas, elur-maluta, eguzki-haize, administrazio-kontseilu, energia-eraginkortasun, liburutegi-zerbitzu...
  • izen+izenondo konbinazioak: ardi beltz, aita santu, zulo beltz, ardo ondu, haize fin, aldapa piko, lagun min, xedapen gehigarri, erregai fosil, nobela historiko, liburu interesgarri, partikula kargatu...

Horiek aztertuta, argi ikus daiteke erauzitako konbinazioak edo bigramak ez direla denak idiomatikotasun-maila berekoak: batzuk esapide idiomatikoak (edo lokuzioak) dira, beste batzuk kolokazioak, eta, azkenik, konbinazio libreak ere badaude. Egiten ari garen lanaren helburua da erauzitako konbinazioak idiomatikotasunaren arabera ordenatzeko teknikak garatzea. Izan ere, erabiltzailearentzat esapide idiomatikoak (gerrikoa estutu, adarretatik heldu, zubiak eraiki, aita santu) eta kolokazioak (atentzioa eman, arrain-sarda, lagun min) izaten dira interes handienekoak. izen+izen eta izen+izenondo konbinazioen kasuan, termino teknikoak ere erauzten dira, horietako batzuk idiomatikotasun-maila nabaria dutenak (eguzki-haize, zulo beltz).

Bada, lehen urrats honetan, bigramaren osagaien agerkidetzaren neurketa izan da idiomatikotasuna karakterizatzeko bidea. Egin dugun ikerketan, independenteki eskuz landutako erreferentzia bat erabili da ebaluaziorako, eta emaitza onenak t neurria (t-score) delakoak lortu ditu. Dena den, kontsulta-interfazean, erabiltzaileak, t neurriaz eta maiztasun absolutuaz gain, beste bost neurri estatistiko ditu aukeran, datuak bistaratzeko eta bigramak ordenatzeko.

Kontsulta-interfazeak eskaintzen dituen aukeren berri jakiteko, ikus webguneko laguntza.

Erabilera

Egia da jende gehienak ez duela ohiturarik corpusak erabiltzeko, aipatu ditugun hizkuntzaren espezialistak edo hizkuntza lan-tresnatzat duen jendea dira batez ere corpusen erabiltzaile. Jende gehienak hiztegiak erabiltzen ditu… Baina hiztegietan zerbait ez dagoenean, corpus hauek oso baliagarriak suerta dakizkieke; existitzen direla jakin behar, eta horiek erabiltzeko ohitura hartu behar...

Gainera, corpusek badituzte ezberdintasunak hiztegiekiko. Batetik, hiztegiek helburu preskriptibo edo arauemailea izaten dute; corpusek, aldiz, deskriptiboa. Honek esan nahi du corpusetan hizkuntza nola erabili izan den ikus daitekeela, eta ez soilik nola erabili beharko litzatekeen. Bestetik, hiztegiak egiteak kostu bat dauka eta mugatuak dira halabeharrez, hitz-kopuru zehatz bat eta adibide-kopuru mugatu bat dute soilik. Corpusetan, nahiko handiak izanik, hitz askoz gehiago ager daitezke eta erabilera-adibide gehiago.

Gainera, web-corpus hauek berezitasun batzuk dituzte beste corpusekiko: hain handiak izanik, aukera handiagoa dago beste corpusetan ez dauden hitzak aurkitzeko; hitz berriak ere aurki daitezke, weba etengabe eguneratzen baita; eta webeko erabilera informalaren (blogak, foroak...) berri ere ematen dute, ez soilik argitaletxe edo komunikabideak bezalako iturri editatuenak.

Edonola ere, nahiz eta jende askok zuzenean corpus hauek (edo beste edozein corpus) ez erabili, corpus hauei eta berauek biltzeko garatutako teknologiei esker etorkizunean garatuko diren hizkuntza-teknologiak (ahots-ezagutza, itzulpen automatikoa...) ziur erabiliko direla.

Web-corpusen Atariaren argitaratzea jauzi kualitatibo bat da, lehen aldia baita webetik automatikoki erauzitako corpusak publikoaren eskura jartzen direna, eta baita kuantitatiboa ere, corpusen tamainan aurrerakuntza esanguratsua baita. Koldo Mitxelenak zioen euskararen benetako misterioa ez dela jatorria, iraupena baizik. Misterio handiagoa da etorkizunean iraungo ote duen. Guk ez dugu horren erantzunik, baina iraungo badu zalantzarik gabe hizkuntza-teknologietan presente egon behar du euskarak. Web-corpusen Atariarekin norabide horretan beste pausu bat eman dugula sinetsita gaude Elhuyarren.

Bibliografia

Interneteko komunikazioen segurtasuna I: Konfidentzialtasuna

e-gor 2013/04/08 20:24
Gaur egunean informazio oso garrantzitsua ibiltzen da Interneten zehar: posta elektroniko pribatuak, dokumentu konfidentzialak, online zerbitzuetako kontuen pasahitzak, kreditu-txartelen datuak... Baina seguru al doa informazio hori guztia Internetetik?
(Elhuyar aldizkariko 2013ko otsaileko zenbakian argitaratutako artikuluaren jatorrizko extended bertsioa)

HTTPS protokoloaren ilustrazioa
Irudia: Wikimedia

E-mailean, webean nabigatzen, nahiz Interneten beste zerbaitetan ari garela, informazioa bidaltzen dugu; abiapuntutik helburura iristeko informazio hori puntu askotatik pasatzen da: gure ordenagailu edo bestelako gailu digitaletik ateratzen da, bideragailuren batetik pasatuko da (enpresako sareko routerretik, etxeko edo tabernako wifikotik...), gero Internet-hornitzailearengana iritsiko da, eta handik oraindik beste nodo asko pasatuko ditu helmugara iritsi arte. Tarteko puntu horietako edozeinen kontrola duenak, dela enpresako informatikaria, tabernako jabea edo Interneteko hornitzailearekin elkar hartuta dagoen polizia -edo, wifiaren kasuan, baita wifidun ordenagailu bat hurbil duen edozeinek ere-, erraz atzeman dezake informazioa.

Sareko komunikazioen zati handi bat (webeko nabigazio gehiena, posta-jasotze eta -bidaltze asko) irekian doa, edozeinek atzemateko moduan. Baina Internetek baditu mekanismoak informazio sentibera -adibidez, pasahitzak, kreditu txartelen datuak edo posta elektroniko sekretuak- modu seguruan eta konfidentzialtasuna bermatuz garraiatzeko. Kriptografiaz baliatzen da horretarako, hau da, mezuak enkriptatuz (kodetuz edo zifratuz) jasotzailea ez den edozeinentzat ulertezin bihurtzen dira. Zehazki, kriptografia-mota berezi bat erabiltzen da Interneten: gako publiko bidezko kriptografia edo kriptografia asimetrikoa.

Kriptografia klasikoaren arazoak Interneten

Mezuak enkriptatzeko sistemak asko erabili izan dira historian zehar, batez ere errege, jeneral eta bestelako agintarien arteko komunikazio garrantzitsuetarako, baina baita maitaleen arteko amodio-mezu sekretuentzat ere. Hasieran metodo sinpleak zirenak gero eta konplexuago bihurtu dira, teknologiak horretarako bidea eman ahala eta aurreko sistemak hausteko teknikak aurkitu ahala. Historiako enkriptatze-metodo ezagun eta erabilienen artean, aipa genitzake Zesarren zifra, Vigènere-ren zifra eta errotore-makinak (Lorenz-ena eta Enigma, esaterako).

Funtsean, enkriptazio-sistema horiek denak printzipio berean oinarritzen dira: mezua funtzio baten bidez eraldatzen da, gako bat erabiliz, eta jasotzaileak gero alderantzizko funtzioa aplikatzen du gako berarekin jatorrizko mezua lortzeko. Adibiderik sinpleenean, funtzioa kenketa izan daiteke eta gakoa 1 zenbakia. Hala, "IBM" mezua "HAL" bihurtuko litzateke (Stanley Kubricken 2001: A Space Odyssey filmeko ordenagailu gaiztoa bezala) letra bakoitzari "-1" funtzioa aplikatuz aurreko letrarekin ordezten badugu, eta jasotzaileak, gakoa (1 zenbakia) jakinda mezu zifratuari "+1" funtzioa aplikatuta, "IBM" lortuko luke berriro. Honi kriptografia simetriko deitzen zaio, gako bera erabiltzen duelako enkriptatzeko eta desenkriptatzeko.

Sistema hauek gero eta hauskaitzago bihurtu dira, zifratze-funtzioa gero eta konplikatuago egin dutelako, garai bakoitzeko teknologiaren laguntzarekin. Gaur egun, kriptografia egiteko ordenagailuak erabiltzen dira; haiei esker, aipatutako funtzioak oso konplexuak eta gakoak oso luzeak izan daitezke, sistema erabat hautsezinak garatzeko modukoak. Hala, AEBko Gobernuak (beste askoren artean) erabiltzen duen AES (Advanced Encryption Standard) zifraketa, kriptografia simetrikoko sistema da.

Baina horrelako sistemek arazo bat dute Interneten jende guztiak nabigatzeko, online erosteko edo e-mail pribatuak bidaltzeko erabiltzeko orduan: bi aldeek ezagutu behar dute gakoa eta beste inork ez. Beraz, ezin da beti gako bera erabili, gako ezberdin bat behar da jasotzaile eta bidaltzaile bakoitzeko; eta gako hori beste inork jakin ez dezan, ezin da Internet bidez bidali, jakina, lehen esan bezala, atzeman egin baitaiteke. Horiek horrela, kasu batzuetan, gobernuenetan esaterako, mezulari bidez bidal dakioke gakoa komunikatu nahi den erakunde bakoitzari, baina Interneteko komunikazioentzat? Denda eta bezero bakoitzeko, webgune eta bisitari bakoitzeko, posta elektronikoaren bidaltzaile eta jasotzaile bakoitzeko, lehenago gako bat aurrez aurre partekatu behar izatea edo mezulari bidez bidali behar izatea ezinezkoa da praktikan: oso garestia litzateke eta ez segurua gainera (mezulariak ustelduta egon daitezke edo gakoa lapurtu egin diezagukete bidean).

Gako publiko bidezko kriptografia

Merkataritza elektronikoak eta Internet bidez informazio konprometitua bidaltzeak aurrera egin badu, 1970eko hamarkadan zifratze-sistema berri bat asmatu zelako izan da, ordura arteko sistemen aldean erabat ezberdin eta apurtzailea, intuizioaren guztiz aurkakoa eta aldi berean oso segurua: gako publiko bidezko kriptografia edo kriptografia asimetrikoa.

Gako publiko bidezko kriptografian, zifratzeko funtzio bat eta gako bat erabiltzen dira, baina funtzio horrek ez du alderantzizkorik (noranzko bakarreko funtzio deitzen zaie hauei); beraz, gakoa jakinda ere ezin da mezua deszifratu; deszifratzeko beste funtzio bat eta beste gako bat behar dira (horregatik deritzo kriptografia asimetrikoa). Orduan, norbaitek ahalbidetu nahi badie beste batzuei modu pribatuan berarekin komunikatzea (esaterako, saltzaileak erosleei, haiek kreditu-txartelaren datuak bidali ahal izateko), publiko egiten du enkriptatzeko gakoa. Edozeinek erabili ahal izango du gako publiko hori hari mezu zifratu bat bidaltzeko, baina gako publiko hori mundu guztiak ezagututa ere, mezua hark bakarrik deszifratu dezake, hark bakarrik ezagutzen baitu deszifratzeko gakoa (gako pribatua deritzona).

Sistema honek funtziona dezan, beharrezkoa da existitzea gako baten araberako funtzio bat alderantzizkorik ez duena, alderantzikatzea beste funtzio eta beste gako baten bidez lortzen dena, eta bigarren gakoa lehenengoa jakinda kalkulatu ezin daitekeena. Guztiz intuizioaren aurkakoa da horrelako funtzio eta gako batzuen existentzia, baina izan badaude, aritmetika modularrari, zenbaki lehenei eta faktorizazioari esker.

Ron Rivest, Adi Shamir eta Leonard Adleman MIT (Massachusetts Institute of Technology) entzutetsuko ikertzaileek aurkitu zituzten horrelako lehenengoak 1977an. Hauek dira zehazki (M zifratu beharreko mezua, ASCII edo UTF bezalako kodeketa baten bidez aurrez zenbaki bihurtua, eta C mezu zifratua direlarik):

  • Zifratzeko gakoa: N eta e zenbakiak, p eta q zenbaki lehenen arabera kalkulatuak, honela:
  • Zifratzeko funtzioa: C = Me (mod N), non mod modulu operazioa den
  • Deszifratzeko gakoa: aipatutako p eta q zenbaki lehenak
  • Deszifratzeko funtzioa: M = Cd (mod N), non d honela kalkultzen den:
    • e x d (mod(p - 1) x (q - 1)) = 1

Esan dugu sistemak funtzionatzeko baldintzetako bat dela deszifratzeko gakoa ezin kal kulatu ahal izatea zifratzeko gakotik abiatuta. Baina, logikoa denez, biak erlazionatuta daude eta kalkulatu daiteke bigarrena lehenetik abiatuta: faktorizazioa egitea besterik ez da, hau da, zenbaki horren zatitzaileak ateratzea. Kontua da hori egin ahal izateko ez dagoela formula azkarrik; zenbaki guztiak probatuta besterik ezin da egin momentuz. Beraz, zenbaki horiek nahikoa handiak badira (eta ehunka digitukoak erabiltzen dira), gaur egungo teknologiarekin ezinezko problema bihurtzen da faktorizazioa, eta zifratze-sistema hautsezina da praktikan. RSA izena du metodoak, asmatzaileen omenez; nahiz eta geroago jakin zen metodo hori Clifford Cocks GCHQ (Government Communications Headquarters, edo Britainia Handiko Inteligentzia Zerbitzua) erakundeko langileak asmatu zuela 1973an, hau da, lau urte lehenago, baina erakunde horren informazio guztia sekretua zen eta 1997ra arte ez zen hori jakinarazi.

RSAren ondoren asmatu dira gako publiko bidezko beste kriptografia-sistema batzuk, hala nola DSA edo ElGamal.

Konfidentzialtasuna Interneten

Interneteko komunikazioak OSI ereduaren arabera mailatan antolatuta daude, aurreko zenbakian kontatzen genizuenez. Eta komunikazio horien konfidentzialtasuna bermatzeko, garraio-mailarako TLS protokoloa (Transport Layer Security) definitu da (lehen SSL edo Secure Sockets Layer gisa ezagutzen zena). Honetan, bidaltzaileak eta jasotzaileak gako publiko bidezko kriptografia erabiltzen dute (RSA normalean, baina besteren bat izan daiteke, biek inplementatuta badute) beste gako bat adosteko (ausazkoa), eta gero benetako komunikazioa gako horrekin eta kriptografia simetriko bidezko metodo batekin egiten da (AESekin, adibidez), konputazionalki ez delako hain garestia eta segurtasun parekoa eskaintzen duelako.

Interneteko aplikazio-mailako protokolo bakoitzerako (weberako HTTP, postarako SMTP eta IMAP, fitxategiak igotzeko FTP, urruneko ordenagailuetan saioak irekitzeko Telnet...), haien bertsio seguruak sortu dira (HTTPS, SMTPS, IMAPS, SFTP eta SSH hurrenez hurren). Horietako batzuk, adibidez HTTPS, SMTPS edo IMAPS, jatorrizko protokoloari garraio-mailan TLS gehitzean eta protokolo berriari beste portu bat esleitzean besterik ez dautza (orain, STARTTLS protokolo berriaren bidez, aplikazioek portu bera erabili dezakete konexio seguruentzat, alde biek inplementatuta duten kasuetan). Beste batzuk, SFTP eta SSH kasu, funtzio berdina dute baina protokolo ezberdinak dira, gako publiko bidezko enkriptazioa erabiltzen dutenak. Protokolo horiek erabiltzen direnean, gure komunikazioen konfidentzialtasuna bermatutzat jo dezakegu. Eta nola jakin protokolo horiek erabiltzen ari garen?

Webean nabigatzen ari garenean, helbidean giltzarrapo bat eta beronen hasieran "https://" ikusten badugu, esan nahi du HTTPS protokoloa erabiltzen ari garela eta, beraz, komunikazioa segurua dela. Merkataritza elektronikoko guneetan ordaintzean, web bidezko posta bezalako zerbitzuetan eta beste toki askotan normalean erabiltzen da.

Posta-programen kasuan, gure kontuaren ezarpenetan begiratu beharko dugu ea zein protokolo onartzen dituen posta bidali eta jasotzeko. Edonola ere, nahiz eta posta programak SMTPS eta IMAPS protokoloak erabili, esan nahi du gu eta gure posta-hornitzailearen arteko komunikazioa inork ezingo duela irakurri, baina ez bidalketaren ondorengo faseetan beste inork ez duenik irakurriko. Hori ekiditea nahi badugu, gure posta-programan PGP programa (Pretty Good Privacy) integratu dezakegu (Phil Zimmermannek 1991n sortua eta oso ezagun eta erabilia bihurtu dena) edo GPG (GNU Privacy Guard) haren bertsio librea; biek azken hartzailearen gako publikoa erabiliz zifratzen dute informazioa, eta, beraz, hark baino ezingo du irakurri.

Urruneko ordenagailuetan saioak irekitzeko edo fitxategiak igotzeko, SSH edo SFTP protokoloak erabiltzen direla ziurtatu beharko dugu konfidentzialtasuna mantendu nahi badugu. Bestelako programetan (VNC, VPN edo Sare Pribatu Birtualak...), ezarpenetan begiratu beharko dugu ea enkriptaziodun protokoloak edo enkriptazio-sistemak erabiltzen dituzten. Gauza hauek kontuan izanez gero, gure informazio pribatuak hala izaten jarraituko du Internet bidez bidalita ere.

Segurtasunaren, konfidentzialtasunaren eta kriptografiaren gaia interesatzen bazaizu, informazio gehiago aurkituko duzu Elhuyar Fundazioak euskaraz argitaratu duen Simon Singh-en Kodeen liburua interesgarrian.

e-gorblog

e-gorblog

Egunez, Igor Leturia Azkarate pertsona arrunta da. Errenterian bizi den arrasatearra, 8etatik 15etara Elhuyarren lan egiten du eta arratsaldeak neskarekin eta bere bi umeekin pasatzen ditu.

Baina gaua iritsi eta umeak lotara joaten direnean, e-gor bihurtzen da, interneteko bere alter-egoa, ziberespazioko informatikaririk komikizaleena eta komikizalerik informatikariena! Bere superbotereekin (interneteko kable-konexioa, bloglines, informatika aldizkariak, gadget-ak, komiki-bilduma, Errenteriko liburutegiko komikien atala eta batez ere bere jakinmin aseezina) eta bere superlaguntzaileak ondoan dituela (Patxi Lurra, DabilenHarria...), euskaldunon teknofobiaren eta komikiei buruzko aurreiritzien aurka burrukatzen du etengabe! Hemen duzu bere bloga: e-gorblog!

Bai, hor goiko aurkezpena superheroi batena da (ezin aproposagoa honelako blog batentzat, ezta?). Superheroia banintz zein izango nintzatekeen jakiteko the Superhero Personality Test egin nuen eta hona emaitzak:

You are Spider-Man
You are intelligent, witty, a bit geeky and have great power and responsibility.

Spider-Man
80%
Superman
70%
Green Lantern
65%
Robin
65%
The Flash
60%
Supergirl
55%
Hulk
55%
Iron Man
45%
Wonder Woman
35%
Catwoman
25%
Batman
0%
Lizentzia

Creative Commons-en baimena
Blog honetako edukia, Igor Leturiak eta beste kolaboratzaile batzuek egiten dutena, Creative Commons Aitortu-PartekatuBerdin 3.0 Unported baimen baten mende dago (irudiak salbu).

Harpidetza
  • Harpidedunak:
  • e-gorren blog pertsonala (komikiak, informatika eta beste) RSS jarioa
  • E-mail harpidetza
  • Twitter-en jarraitu:
  • Erantzunen harpidetza
  • Harpidedunak:
  • RSS jarioa
  • E-mail harpidetza
  • Artxiboa
    2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017
    Artikulu aipagarriak

    MythTV sorta
    2004/11

    "Pololoak" sorta
    2004/11-12 - 2006/10-12 - 2007/02-03

    Monoblogoa
    2005/01/11

    "Persepolis", xalotasunaren sakontasuna
    2005/01/25

    Elgetako Blogs&Beers 2005: nire inpresioa eta moblogging kontuak
    2005/04/18

    Firefox eta bere plugin zoragarriak
    2005/05/11

    "El País"-en komiki bilduma
    2005/05/15

    Euskarazko bi blog berri (bai, beste bi, baina hauek bereziak dira!)
    2005/05/25

    "Watchmen" sorta
    2005/09-11 - 2006/10 - 2007/10 - 2008/07

    "La cárcel de papel"-eko "Mis tebeos favoritos" saila I: 1etik 20ra
    2005/11/08

    "Goienkaria"-n agertu naiz
    2005/12/08

    Komikiak eta euskal rock-a
    2005/12/14

    Ruben Arozena "Ruben" komikigilea hil da
    2006/01/02

    Zope-rako DTML Calendar Tag produktua, euskaraz
    2006/02/01

    "Joyas Literarias Juveniles" bilduma, osorik eMule-n
    2006/08/05

    Argazkigintza eta DRM-a
    2006/10/09

    Paul Auster eta Euskararen Herria
    2006/10/29

    Angoulême sorta
    2007/01-02

    Gaur duela 25 urte nire bizitza aldatu zen
    2007/04/23

    Hergé-ren defentsan
    2007/05/22

    Ubuntu-ren bertsio berria, hobekuntza askorekin
    2007/07/02

    OLPC sorta
    2007/12 - 2008/01

    Guillermo Zubiaga, Marvel-eko komikilari euskalduna
    2008/02/05

    Asus EEE PC, ordenagailu txiki eta merkeen hurrengo sorta
    2008/03/11

    Agur, Ipurbeltz, agur... :-(
    2008/08/04

    "Café Budapest", gizatasuna eta bizikidetzaren aldeko aldarria
    2008/08/25

    "Arturo Erregea" serie mitikoa, Euskal Encodings-en! (beste askorekin batera)
    2008/09/17

    "Gazteak", beste serie mitiko bat euskaraz eskuragai!
    2008/10/14

    Pottokiek 50 urte!
    2008/10/22

    Europan ere OLPC-ren XO ordenagailuak erosteko aukera!
    2008/11/12

    Microsoft-en web zerbitzuetako gehienak, euskaraz!
    2008/12/04

    "Heroes"-en 2. denboraldia: ETB kirtenkeria errepikatzera, eta Euskal Encodings konpontzera
    2009/01/23

    I. Euskal OLPC Party-a, apirilaren 23an Donostiako Doka kafe antzokian
    2009/04/16

    Elkarrizketa egin didate 7K-n
    2009/06/03

    Azpiriren Spectrum-entzako jokoen azalak liburu batean
    2009/10/06

    Asterix, heroi garaitua
    2009/10/29

    "Ihes ederra", euskarazko komikigintzaren heldutasunaren konfirmazioa
    2009/11/13

    Pololoak 3: The making of
    2009/11/22

    5 urte 5!
    2009/12/15

    Nobela grafikoa, komikien prestigiorako ala mespretxurako?
    2009/12/20

    "Pololoak 3 - Atxeritoko balada", trilogiaren amaiera borobila
    2010/01/13

    Sinclair ZX Spectrum bat oparitu didate!
    2010/01/19

    Zergatik ez dudan liburu elektronikorik erosiko (gauzak aldatzen ez diren artean)
    2010/01/27

    Errealitate areagotua: munduaren pertzepzioa aberasten
    2010/02/09

    e-gorblog, "Nick dut nik" telebista saioan
    2010/05/20

    Sarearen neutraltasunari erasoak: Interneten izaera arriskuan
    2010/06/02

    "Avatar, azken aire maisua" osoa eta "Heroiak"-en lehen bi denboraldiak, Euskal Encodings-en
    2010/07/22

    Sistema eragileen guda berria
    2010/12/14

    Anubis 3.0 albumarentzat 3D animazio ederra
    2010/12/27

    Telebistaren benetako iraultza hemen da, eta ez da LTDa
    2011/01/10

    "Asterix galiarra" eta "Urrezko igitaia" berrargitaratu ditu Salvatek
    2011/01/13

    Euskarazko komikigintza digitalizazioaren aurrean
    2011/01/27

    "Ihes ederra"ren gaztelaniazko eta katalanezko bertsioak eta "Alokairuan", kalean
    2011/02/20

    Star Wars jatorrizko trilogia, euskaraz
    2011/03/21

    Sare sozialetan preso
    2011/04/06

    Zer dudan Steve Jobsen, edo Appleren, aurka
    2011/10/14

    Gaur 100 urte Adèle Blanc-Sec-en abenturak hasi zirela
    2011/11/04

    Euskarazko 8 komiki berri
    2011/12/02

    Social networks killed the RSS star?
    2012/06/10