Edukira salto egin | Salto egin nabigazioara

Tresna pertsonalak

Eibarko peoria, San Blasa baino hobia
Hemen zaude: Hasiera / Blogak / e-gorblog / Web semantikoa: Interneten benetako ahala iristeko dago oraindik

Web semantikoa: Interneten benetako ahala iristeko dago oraindik

e-gor 2009/09/08 12:26
1990ean, Sir Tim Berners-Lee CERNeko ikertzaileak World Wide Web-a asmatu zuen, hipertestuaren kontzeptua eta Interneteko TCP/IP eta DNS protokoloak konbinatuz. Asmakizun hark gu guztion bizitza eta mundu osoa aldatu zituen. Hala ere, aldaketa hori ez da ezer izango Berners-Lee azkenaldian lantzen ari den ideia berria, web semantikoa alegia, gauzatuz gero sortuko denaren aldean.
(Elhuyar aldizkariko 2009ko maiatza eta ekaineko aleetan argitaratutako artikuluen jatorrizko extended bertsioa)

Egungo Internetaren arazoak

Amaraunaren asmakuntzaz geroztik, erritmo esponentzialean ugaritu dira bertan dagoen informazioa eta ematen dituen aukerak, ate berri pila irekiz eta denon lan egin eta bizitzeko modua aldatuz. Baina informazio eta aukera guzti horiek erabiltzea ez da beti hain erraza...

Batetik, informazio-kantitate ikaragarria dago, eta, informazio-uholde horretan ito gabe murgiltzeko, ezinbestekoak ditugu bilatzaileak, hala nola Google edo Elebila. Baina, horiekin ere, sarritan ez da erraza behar duguna aurkitzea. Esate baterako, emaitza asko daudenean, ez da erraza bereizten, bilatzeko eman diogun hitzaren esanahi posibleetatik, guk nahi dugun adierari buruzko orriak zein diren ("Texas" hitza bilatzean, adibidez, AEBko estatuari, musika-taldeari, liburuari edo beste gauza askori buruzko orriak, denak batera, agertuko dira). Edo maiz ez dago modu onik informazio onaren eta txarraren artean bereizteko, bilatzaileek lehenengo posizioetan erakusteak ez baitu beti kalitatea ziurtatzen. Bestetik, mota bateko zerbitzu guztiak bateratzeko modurik ez dago kasu askotan, eta zerbait erosi nahi dugunean, adibidez, prezioak eta aukerak konparatzeko, hainbat dendaren webguneetan begiratu beste aukerarik ez dugu. Eta hauek moduko beste arazo batzuk ere baditu gaur egungo web-ak...

Arazoen iturria, HTML formatua

Arazo horiek guztiak amaraunaren hasierako diseinutik beretik datoz. Weba, finean, Interneten azpiegituran kokatutako hipertestu-bilduma bat besterik ez da, hau da, elkarri erreferentzia egiten dioten dokumentuen bilduma bat, eta, hipertestua kodetzeko, Berners-Leek berak sortutako HTML formatua erabiltzen da. Bada, formatu horren ezaugarriak eta mugak dira arazo guztien kausa.

HTML edo HyperText Markup Language testu-markaketarako lengoaia bat da, alegia, testu bat edo haren zatiak nola deskribatu azaltzen duen konbentzio bat. HTML lengoaian, deskribapen-markatze hori testuan bertan < > ikurren artean sartzen diren etiketen bidez egiten da. Adibidez, HTMLn, testu-zati bat lehen mailako izenburua dela adierazteko, h1 etiketa erabiltzen da (<h1>Lehen mailako izenburua</h1>), eta, letra etzanez idazteko, em etiketa (<em>kurtsibazko testua</em>). Horrelako beste etiketa mordoa daude, estekentzat, irudientzat eta abarrentzat. Nabigatzaileek markatze hori interpretatzen dute, eta erabiltzaileari orria modu egoki batean erakusten diote.

Baina HTMLko etiketa gehienak testuaren egitura eta itxura deskribatzeko dira, gizaki batek testua modu egokian ikusi eta ulertu ahal izateko. Ez daude pentsatuta makinen tratamendu automatikoa hobetu edo errazteko. Eta bilatzaileak eta Interneteko beste tresnak makinak besterik ez dira. HTML etiketekin soilik ez dute informazio nahikorik ongi lan egiteko, eta testua bera ezin dute ulertu pertsonok egiten dugun bezala. Hala, testua eta HTML etiketak soilik izanik, bilatzaile batek ezin du jakin "Java" hitza agertzen den orri bat uharteari edo programazio-lengoaiari buruzkoa den, edo, produktu bati buruz ari den orri batean, jendeak ongi edo gaizki hitz egiten duen hari buruz, edo orri bat produktu jakin bat saltzen duen on line denda batena dela...

Web semantikoak du konponbidea

World Wide Webaren sortzailea bera ari da konponbidea bilatu nahian. Hain zuzen ere, web semantikoarena da Tim Berners-Leek zuzendutako World Wide Web Consortium edo W3C nazioarteko erakundea (1994an Berners-Leek webarentzako estandarrak finkatu eta bere etorkizuna gidatzeko helburua duena) azkenaldian gehien lantzen ari den gidalerroetako bat, hasierako diseinu haren akatsak zuzendu nahi dituen egitasmoa.

HTML formatuaren etiketatzeak dokumentuak eta haien arteko loturak deskribatzeko balio du. Web semantikoan, aldiz, objektuak, pertsonak eta horrelakoak, eta haien arteko erlazioak deskribatzen dira. Etiketek orriaren itxura eta egitura azaldu beharrean, orriko elementuen esanahia etiketatzen da. Web semantikoan etiketa jakin batzuk leudeke, adibidez, musika-taldeak deklaratu eta deskribatzeko, beste batzuk pertsonak deklaratu eta deskribatzeko, beste batzuk pertsona batzuek musika talde bat osatzen dutela deskribatzeko, eta horrela gauza guztiekin.

Hala, bilatzaileek ezberdindu ahal izango lukete "Scorpions" hitza duten orrietatik zein diren musika-taldeari dagozkionak eta zein animaliari, eta emaitzak esanahi posible ezberdin horien arabera taldekatuta erakutsi. Edo musika-taldeetan espezializatutako bilatzaileak sortu ahal izango lirateke. Edo on line denda ezberdinetan produktu bera saltzen dela nahiko erraz detektatu ahal izango litzateke, eta prezio-aukera denak batera erakutsiko lituzketen zerbitzuak eraiki. Edo, antzerki-ekitaldiak eta non diren detektatuta, herrialde bateko antzerki-emanaldi guztien egutegi bat automatikoki osatu ahal izango genuke. Edo erabiltzaileek web orri edo produktu bati emandako puntuazioak semantikoki etiketatuta, bilatzaileek edo dendek puntuazioaren araberako rankingak ere egin ahal izango lituzkete. Eta horrelako beste milaka eta milaka aplikazio izango lituzke web semantikoak, oraindik imajinatu ere egin ezin ditugunak.

Beraz, web semantikoa izango litzateke pertsonentzat kodetzen den HTML sarearekin batera existituko litzatekeen sare paralelo bat, makinek ulertzeko moduko ezagutza-base bat, semantika adierazteko formatuetan kodetua. Lengoaia naturaleko webaz gain, testu egituratuko beste bat izango genuke. Ezagutzaren errepresentazio hori makinek ulertu ahal izango lukete, modu eraginkorrean tratatu, ezagutza berria inferitu...

Teknologiak: RDF, OWL...

Baina, horretarako, amaraunean dauden kontzeptu guztiak definitu ahal izateko, etiketatze semantikoko eskema eta formatuak behar dira. W3Ck formatu horiek definitu ditu hainbat estandarretan; RDF eta OWL dira garrantzitsuenak eta ezagunenak.

RDF (Resource Description Framework) baliabideak deskribatzeko balio duen formatu bat da, XMLn oinarritua. Hiru elementutan oinarritzen da: baliabideak, propietateak eta propietateen balioak. Baliabidea deskribatuko den hori da, eta URI batez (web identifikatzaile edo helbide batez) identifikatzen da. Propietatea baliabidearen ezaugarri bat da, deskribatu nahi dena. Eta balioak deskribatu nahi diren ezaugarrien balio konkretuak dira (ikusi hurrengo orriko adibidea).

Adibidez, honela deskribatu ahal izango litzateke Elhuyar aldizkariaren ale bat eta bere artikuluak RDF bidez (hau modu sinplifikatu eta ulerterrazean erakutsita dago, RDF formatuan beste etiketa-izen batzuk erabiltzen dira):

<RDF>
  <Description about="http://www.zientzia.net/elhuyar.asp?Alea=251">
    <izenburua>Elhuyar Zientzia eta Teknika</izenburua>
    <alea>251</alea>
    <egilea>Elhuyar Fundazioa</egilea>
    <data>2009ko martxoa</data>
    <artikuluak>
      <artikulua resource="http://www.zientzia.net/artikulua.asp?Artik_kod=14412" />
        ...
    </artikuluak>
  </Description>
  <Description about="http://www.zientzia.net/artikulua.asp?Artik_kod=14412">
    <izenburua>Pirinioak, unibertsoaren laborategi</izenburua>
    <egilea>Oihane Lakar</egilea>
  </Description>
  ...
</RDF>

Era horretara, nahi duguna deskriba dezakegu. Baina gauza-mota bakoitza (pertsonak, musika taldeak, liburuak...) deskribatzeko erabili beharreko etiketetan ados jarri beharra dago; bestela, makinek ulertu gabe jarraituko lukete. Horretan laguntzen du OWL (Web Ontology Language) lengoaiak. OWLek ezagutza-arlo edo bizitzaren esparru jakin bateko objektu edo entitateak nola deskribatuko diren definitzea ahalbidetzen du.

Eta horiei aprobetxamendu egokia ateratzeko, beste hainbat teknologia ere definitzen dira web semantikoan: SPARQL (RDF ezagutza-baseak kontsultatu ahal izateko kontsulta-lengoaia), GRDDL (modu berezi baten kodetutako XML eta XHTML dokumentuetatik RDF sareak automatikoki erauzteko lengoaia) eta abar.

Adibide erreal bat:RSS formatua

Web semantikoaren ahalmenaren adibide txiki bat geure artean dugu aspalditik: blogek hasieratik, eta, gaur egun, Interneteko bestelako albisteguneek ere erabiltzen duten RSS (Really Simple Syndication) formatua. Izatez, RDF mota bat da (jatorrizko izena RDF Site Summary da), albisteak deskribatzen espezializatutakoa. Blogek berrikuntza handia ekarri zuten, informatika edo HTML ezagutza teknikorik izan gabe Interneten edukia sortzeko aukera eman baitzioten erabiltzaileari, eta jende berri asko hasi zen Interneten testuak jartzen. Baina blogek ez zuketen halako arrakasta izango RSS formatuagatik ez balitz.

Izan ere, blogak HTML formatuan soilik publikatu izan balira, hainbat blogen gaiak atsegin dituen irakurle batentzat ez litzateke erraza izango haiei jarraipena egitea. Aldian behin horietako guztietara sartu beharko luke, zerbait berririk dagoen ikusteko. Eta lan hori, gainera, askotan ezer berririk ez egoteko, edo ez gogoratzeko azkeneko aldian zein irakurri genituen... Azkenean, ezingo luke blog gutxi batzuen jarraipena baino egin.

Baina blogek, pertsonentzako HTML bertsioaz gain, makinentzako RSS bertsioa ere bazuten. Bertsio horretan, azken sarrera edo artikuluak agertzen ziren, horietako bakoitza etiketen bidez ondo ezberdinduta, eta bakoitzaren izenburua, egilea, data, laburpena, esteka eta abar ondo egituratuta, makinek ulertzeko moduan. Hala, RSS-irakurgailuak sortu ziren, norberak atsegin dituen blogen jarraipena egiteko. Irakurgailuak gure blog gogokoen RSSen jarraipen periodikoa egiten du, eta erabiltzaileari azkeneko sartu zenetik dauden berriak soilik erakutsi; horrela, hamarka edo ehunka blogen jarraipena egin daiteke. Eta blogetan espezializatutako bilatzaileak ere sortu ziren, eta RSSak batu eta filtratzeko zerbitzuak, egunkari eta aldizkarien webguneek ere jarri zuten RSSa, sare sozialek ere bai... Web 2.0ren iraultzaren benetako "errudunetako" bat RSSa izan zen.

Pentsa, blog eta albisteentzako etiketatze semantiko sinple batek hori egin badu, zer ez den gertatuko beste edonolako kontzeptuak (pertsonak, salgaiak, ekitaldiak...) ere semantikoki etiketatzen direnean...

Badaude beste adibide batzuk, esperimentalagoak oraingoz, web semantikoaren ahalmena erakusten saiatzen direnak, dbpedia.org proiektua adibidez. Wikipediako infobox-etatik (Wikipediako orri batzuk eskuinean izaten duten informazio egituratuzko kutxak, alegia) RDF sare erraldoi bat erauzi dute, eta SPARQL lengoaian hainbat kontzeptu erlazionatzen dituzten kontsulta konplexuak egin dakizkioke (bertako etsenplu baten "11 zenbakia duen futbol jokalaria, 40.000 pertsona baino gehiagorentzako kapazitatea duen estadioa daukan klub batekoa, 10 milioi biztanle baino gehiago dituen herrialde baten jaiotakoa" galdera dago!).

Web semantikoaren ajeak

Hala ere, ezin guztia ona izan. Badira jada urte batzuk web semantikoaren ideia sortu zela, eta gauzatzea asko kostatzen ari zaio. Izan ere, ez da lan erraza. Batetik, existitzen diren kontzeptu guztientzako ontologiak definitu eta adostu behar dira, eta, hainbat gauza jada egin diren arren, lan ikaragarria da.

Baina, bestetik, are garrantzitsuagoa dena, gero edukia formatu horietan sortu behar da, eta hori oso neketsua izan daiteke. Ezin dugu espero webguneak sortzen dituen jendeak RDF formatuan eskuz etiketatzea. Webguneak tresnak erabiliz sortzen dira aspalditik, eta tresna horiek izan beharko dira egokitu eta edukia formatu semantikoan ere sortuko dutenak, blog-plataformek zuzenean RSSa ere publikatzen duten bezala. Kasu jakin batzuetan, espero izatekoa da hori nahiko laster gertatzea, hala nola edukia berez nahiko egituratua den kasuetan (ekitaldien egutegiak, adibidez) edo enpresen interesekoak direnetan (on line dendetako produktuen deskribapen orriak, adibidez).

Zailagoa izango da gaur egun lengoaia naturalean idatzitako testuetan agertzen den informazio guztia ere semantikoki etiketatzea. Testu batean pertsonak, liburuak, haien ezaugarriak, haien arteko erlazioak eta abar deskribatzen direnean, hori semantikoki etiketatzea, tresna bisualen laguntzarekin ere, izugarrizko lana da. Eta ez dago, egutegiaren edo dendetako produktuen kasuetan bezala, automatikoki egiterik...

Makinak testua ulertzen?

Edo bai. Hainbat esperimentutan, Lengoaia Naturalaren Prozesamenduko (NLP) teknikak erabiltzen ari dira testu arruntetatik automatikoki etiketatze semantikoa erauzteko, batzuetan arrakastaz. Webgintzako tresnek agian horrelako LNPko teknikak integratu ditzakete, eta eduki sortzaileari lagundu diezaiokete etiketatze semantikoa sortzen, etorkizun ez hain urrun batean. Baina, bestalde, makinak hori benetan ongi egiteko gai badira, ez dago web semantikoaren beharrik, horrek esan nahi baitu makinak gai direla testua "ulertzeko", eta Interneteko bilatzaile eta bestelako agenteek zuzenean modu eraginkor batean tratatu ahal izango dituztela HTML formatuan dauden testuak.

Ez dakigu zein iritsiko den lehenago, semantikoki etiketatutako weba ala makinek testuaren semantika edo esanahia ulertzea. Eta, lehenengo kasua bada, ezin jakin zenbat eduki egongo den web semantikoan: web osoa etiketatuko den semantikoki, edo gauza jakin batzuk soilik (sinpleenak eta enpresen interesekoak), edo bien arteko zerbait... Edonola ere den, modu batera edo bestera, webean esanahiak gero eta garrantzi handiagoa izango du, eta, semantikari esker, zerbitzu gero eta hobeak izango ditugu. Sir Tim Berners-Leek berak aurtengo martxoan esana da: "Weba ez dago amaituta. Gaur egungo weba izebergaren punta besterik ez da. Teknologia berriak iritsiko dira, askoz ere boteretsuagoak, inoiz pentsatuko ez genituzkeen gauzak egitea ahalbidetuko digutenak. Onena iristear dago". Hala bedi!

Iruzkina gehitu

Erantzuna formulario hau betez utzi dezakezu. Formatua testu arruntarena da. Web eta e-posta helbideak automatikoki klikagarri agertuko dira.

Galdera: Zenbat dira hogei ken bi? (idatzi zenbakiz)
Erantzuna:
e-gorblog

Egunez, Igor Leturia Azkarate pertsona arrunta da. Errenterian bizi den arrasatearra, 8etatik 17etara Elhuyarren lan egiten du eta arratsaldeak neskalagunarekin eta bere bi umeekin pasatzen ditu.

Baina gaua iritsi eta umeak lotara joaten direnean, e-gor bihurtzen da, interneteko bere alter-egoa, ziberespazioko informatikaririk komikizaleena eta komikizalerik informatikariena! Bere superbotereekin (interneteko kable-konexioa, bloglines, informatika aldizkariak, gadget-ak, komiki-bilduma, Errenteriko liburutegiko komikien atala eta batez ere bere jakinmin aseezina) eta bere superlaguntzaileak ondoan dituela (Patxi Lurra, DabilenHarria...), euskaldunon teknofobiaren eta komikiei buruzko aurreiritzien aurka burrukatzen du etengabe! Hemen duzu bere bloga: e-gorblog!

Bai, hor goiko aurkezpena superheroi batena da (ezin aproposagoa honelako blog batentzat, ezta?). Superheroia banintz zein izango nintzatekeen jakiteko the Superhero Personality Test egin nuen eta hona emaitzak:

You are Spider-Man
You are intelligent, witty, a bit geeky and have great power and responsibility.

Spider-Man
80%
Superman
70%
Green Lantern
65%
Robin
65%
The Flash
60%
Supergirl
55%
Hulk
55%
Iron Man
45%
Wonder Woman
35%
Catwoman
25%
Batman
0%
Lizentzia

Creative Commons-en baimena
Blog honetako edukia, Igor Leturiak eta beste kolaboratzaile batzuek egiten dutena, Creative Commons Aitortu-PartekatuBerdin 3.0 Unported baimen baten mende dago (irudiak salbu).

Artxiboa
2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024
Artikulu aipagarriak

MythTV sorta
2004/11

"Pololoak" sorta
2004/11-12 - 2006/10-12 - 2007/02-03

Monoblogoa
2005/01/11

"Persepolis", xalotasunaren sakontasuna
2005/01/25

Elgetako Blogs&Beers 2005: nire inpresioa eta moblogging kontuak
2005/04/18

Firefox eta bere plugin zoragarriak
2005/05/11

"El País"-en komiki bilduma
2005/05/15

Euskarazko bi blog berri (bai, beste bi, baina hauek bereziak dira!)
2005/05/25

"Watchmen" sorta
2005/09-11 - 2006/10 - 2007/10 - 2008/07

"La cárcel de papel"-eko "Mis tebeos favoritos" saila I: 1etik 20ra
2005/11/08

"Goienkaria"-n agertu naiz
2005/12/08

Komikiak eta euskal rock-a
2005/12/14

Ruben Arozena "Ruben" komikigilea hil da
2006/01/02

Zope-rako DTML Calendar Tag produktua, euskaraz
2006/02/01

"Joyas Literarias Juveniles" bilduma, osorik eMule-n
2006/08/05

Argazkigintza eta DRM-a
2006/10/09

Paul Auster eta Euskararen Herria
2006/10/29

Angoulême sorta
2007/01-02

Gaur duela 25 urte nire bizitza aldatu zen
2007/04/23

Hergé-ren defentsan
2007/05/22

Ubuntu-ren bertsio berria, hobekuntza askorekin
2007/07/02

OLPC sorta
2007/12 - 2008/01

Guillermo Zubiaga, Marvel-eko komikilari euskalduna
2008/02/05

Asus EEE PC, ordenagailu txiki eta merkeen hurrengo sorta
2008/03/11

Agur, Ipurbeltz, agur... :-(
2008/08/04

"Café Budapest", gizatasuna eta bizikidetzaren aldeko aldarria
2008/08/25

"Arturo Erregea" serie mitikoa, Euskal Encodings-en! (beste askorekin batera)
2008/09/17

"Gazteak", beste serie mitiko bat euskaraz eskuragai!
2008/10/14

Pottokiek 50 urte!
2008/10/22

Europan ere OLPC-ren XO ordenagailuak erosteko aukera!
2008/11/12

Microsoft-en web zerbitzuetako gehienak, euskaraz!
2008/12/04

"Heroes"-en 2. denboraldia: ETB kirtenkeria errepikatzera, eta Euskal Encodings konpontzera
2009/01/23

I. Euskal OLPC Party-a, apirilaren 23an Donostiako Doka kafe antzokian
2009/04/16

Elkarrizketa egin didate 7K-n
2009/06/03

Azpiriren Spectrum-entzako jokoen azalak liburu batean
2009/10/06

Asterix, heroi garaitua
2009/10/29

"Ihes ederra", euskarazko komikigintzaren heldutasunaren konfirmazioa
2009/11/13

Pololoak 3: The making of
2009/11/22

5 urte 5!
2009/12/15

Nobela grafikoa, komikien prestigiorako ala mespretxurako?
2009/12/20

"Pololoak 3 - Atxeritoko balada", trilogiaren amaiera borobila
2010/01/13

Sinclair ZX Spectrum bat oparitu didate!
2010/01/19

Zergatik ez dudan liburu elektronikorik erosiko (gauzak aldatzen ez diren artean)
2010/01/27

Errealitate areagotua: munduaren pertzepzioa aberasten
2010/02/09

e-gorblog, "Nick dut nik" telebista saioan
2010/05/20

Sarearen neutraltasunari erasoak: Interneten izaera arriskuan
2010/06/02

"Avatar, azken aire maisua" osoa eta "Heroiak"-en lehen bi denboraldiak, Euskal Encodings-en
2010/07/22

Sistema eragileen guda berria
2010/12/14

Anubis 3.0 albumarentzat 3D animazio ederra
2010/12/27

Telebistaren benetako iraultza hemen da, eta ez da LTDa
2011/01/10

"Asterix galiarra" eta "Urrezko igitaia" berrargitaratu ditu Salvatek
2011/01/13

Euskarazko komikigintza digitalizazioaren aurrean
2011/01/27

"Ihes ederra"ren gaztelaniazko eta katalanezko bertsioak eta "Alokairuan", kalean
2011/02/20

Star Wars jatorrizko trilogia, euskaraz
2011/03/21

Sare sozialetan preso
2011/04/06

Zer dudan Steve Jobsen, edo Appleren, aurka
2011/10/14

Gaur 100 urte Adèle Blanc-Sec-en abenturak hasi zirela
2011/11/04

Euskarazko 8 komiki berri
2011/12/02

Social networks killed the RSS star?
2012/06/10