e-gorblog

Web semantikoa: Interneten benetako ahala iristeko dago oraindik

e-gor 2009/09/08 12:26

1990ean, Sir Tim Berners-Lee CERNeko ikertzaileak World Wide Web-a asmatu zuen, hipertestuaren kontzeptua eta Interneteko TCP/IP eta DNS protokoloak konbinatuz. Asmakizun hark gu guztion bizitza eta mundu osoa aldatu zituen. Hala ere, aldaketa hori ez da ezer izango Berners-Lee azkenaldian lantzen ari den ideia berria, web semantikoa alegia, gauzatuz gero sortuko denaren aldean.

(Elhuyar aldizkariko 2009ko maiatza eta ekaineko aleetan argitaratutako artikuluen jatorrizko extended bertsioa)

Egungo Internetaren arazoak

Amaraunaren asmakuntzaz geroztik, erritmo esponentzialean ugaritu dira bertan dagoen informazioa eta ematen dituen aukerak, ate berri pila irekiz eta denon lan egin eta bizitzeko modua aldatuz. Baina informazio eta aukera guzti horiek erabiltzea ez da beti hain erraza...

Batetik, informazio-kantitate ikaragarria dago, eta, informazio-uholde horretan ito gabe murgiltzeko, ezinbestekoak ditugu bilatzaileak, hala nola Google edo Elebila. Baina, horiekin ere, sarritan ez da erraza behar duguna aurkitzea. Esate baterako, emaitza asko daudenean, ez da erraza bereizten, bilatzeko eman diogun hitzaren esanahi posibleetatik, guk nahi dugun adierari buruzko orriak zein diren ("Texas" hitza bilatzean, adibidez, AEBko estatuari, musika-taldeari, liburuari edo beste gauza askori buruzko orriak, denak batera, agertuko dira). Edo maiz ez dago modu onik informazio onaren eta txarraren artean bereizteko, bilatzaileek lehenengo posizioetan erakusteak ez baitu beti kalitatea ziurtatzen. Bestetik, mota bateko zerbitzu guztiak bateratzeko modurik ez dago kasu askotan, eta zerbait erosi nahi dugunean, adibidez, prezioak eta aukerak konparatzeko, hainbat dendaren webguneetan begiratu beste aukerarik ez dugu. Eta hauek moduko beste arazo batzuk ere baditu gaur egungo web-ak...

Arazoen iturria, HTML formatua

Arazo horiek guztiak amaraunaren hasierako diseinutik beretik datoz. Weba, finean, Interneten azpiegituran kokatutako hipertestu-bilduma bat besterik ez da, hau da, elkarri erreferentzia egiten dioten dokumentuen bilduma bat, eta, hipertestua kodetzeko, Berners-Leek berak sortutako HTML formatua erabiltzen da. Bada, formatu horren ezaugarriak eta mugak dira arazo guztien kausa.

HTML edo HyperText Markup Language testu-markaketarako lengoaia bat da, alegia, testu bat edo haren zatiak nola deskribatu azaltzen duen konbentzio bat. HTML lengoaian, deskribapen-markatze hori testuan bertan < > ikurren artean sartzen diren etiketen bidez egiten da. Adibidez, HTMLn, testu-zati bat lehen mailako izenburua dela adierazteko, h1 etiketa erabiltzen da (<h1>Lehen mailako izenburua</h1>), eta, letra etzanez idazteko, em etiketa (<em>kurtsibazko testua</em>). Horrelako beste etiketa mordoa daude, estekentzat, irudientzat eta abarrentzat. Nabigatzaileek markatze hori interpretatzen dute, eta erabiltzaileari orria modu egoki batean erakusten diote.

Baina HTMLko etiketa gehienak testuaren egitura eta itxura deskribatzeko dira, gizaki batek testua modu egokian ikusi eta ulertu ahal izateko. Ez daude pentsatuta makinen tratamendu automatikoa hobetu edo errazteko. Eta bilatzaileak eta Interneteko beste tresnak makinak besterik ez dira. HTML etiketekin soilik ez dute informazio nahikorik ongi lan egiteko, eta testua bera ezin dute ulertu pertsonok egiten dugun bezala. Hala, testua eta HTML etiketak soilik izanik, bilatzaile batek ezin du jakin "Java" hitza agertzen den orri bat uharteari edo programazio-lengoaiari buruzkoa den, edo, produktu bati buruz ari den orri batean, jendeak ongi edo gaizki hitz egiten duen hari buruz, edo orri bat produktu jakin bat saltzen duen on line denda batena dela...

Web semantikoak du konponbidea

World Wide Webaren sortzailea bera ari da konponbidea bilatu nahian. Hain zuzen ere, web semantikoarena da Tim Berners-Leek zuzendutako World Wide Web Consortium edo W3C nazioarteko erakundea (1994an Berners-Leek webarentzako estandarrak finkatu eta bere etorkizuna gidatzeko helburua duena) azkenaldian gehien lantzen ari den gidalerroetako bat, hasierako diseinu haren akatsak zuzendu nahi dituen egitasmoa.

HTML formatuaren etiketatzeak dokumentuak eta haien arteko loturak deskribatzeko balio du. Web semantikoan, aldiz, objektuak, pertsonak eta horrelakoak, eta haien arteko erlazioak deskribatzen dira. Etiketek orriaren itxura eta egitura azaldu beharrean, orriko elementuen esanahia etiketatzen da. Web semantikoan etiketa jakin batzuk leudeke, adibidez, musika-taldeak deklaratu eta deskribatzeko, beste batzuk pertsonak deklaratu eta deskribatzeko, beste batzuk pertsona batzuek musika talde bat osatzen dutela deskribatzeko, eta horrela gauza guztiekin.

Hala, bilatzaileek ezberdindu ahal izango lukete "Scorpions" hitza duten orrietatik zein diren musika-taldeari dagozkionak eta zein animaliari, eta emaitzak esanahi posible ezberdin horien arabera taldekatuta erakutsi. Edo musika-taldeetan espezializatutako bilatzaileak sortu ahal izango lirateke. Edo on line denda ezberdinetan produktu bera saltzen dela nahiko erraz detektatu ahal izango litzateke, eta prezio-aukera denak batera erakutsiko lituzketen zerbitzuak eraiki. Edo, antzerki-ekitaldiak eta non diren detektatuta, herrialde bateko antzerki-emanaldi guztien egutegi bat automatikoki osatu ahal izango genuke. Edo erabiltzaileek web orri edo produktu bati emandako puntuazioak semantikoki etiketatuta, bilatzaileek edo dendek puntuazioaren araberako rankingak ere egin ahal izango lituzkete. Eta horrelako beste milaka eta milaka aplikazio izango lituzke web semantikoak, oraindik imajinatu ere egin ezin ditugunak.

Beraz, web semantikoa izango litzateke pertsonentzat kodetzen den HTML sarearekin batera existituko litzatekeen sare paralelo bat, makinek ulertzeko moduko ezagutza-base bat, semantika adierazteko formatuetan kodetua. Lengoaia naturaleko webaz gain, testu egituratuko beste bat izango genuke. Ezagutzaren errepresentazio hori makinek ulertu ahal izango lukete, modu eraginkorrean tratatu, ezagutza berria inferitu...

Teknologiak: RDF, OWL...

Baina, horretarako, amaraunean dauden kontzeptu guztiak definitu ahal izateko, etiketatze semantikoko eskema eta formatuak behar dira. W3Ck formatu horiek definitu ditu hainbat estandarretan; RDF eta OWL dira garrantzitsuenak eta ezagunenak.

RDF (Resource Description Framework) baliabideak deskribatzeko balio duen formatu bat da, XMLn oinarritua. Hiru elementutan oinarritzen da: baliabideak, propietateak eta propietateen balioak. Baliabidea deskribatuko den hori da, eta URI batez (web identifikatzaile edo helbide batez) identifikatzen da. Propietatea baliabidearen ezaugarri bat da, deskribatu nahi dena. Eta balioak deskribatu nahi diren ezaugarrien balio konkretuak dira (ikusi hurrengo orriko adibidea).

Adibidez, honela deskribatu ahal izango litzateke Elhuyar aldizkariaren ale bat eta bere artikuluak RDF bidez (hau modu sinplifikatu eta ulerterrazean erakutsita dago, RDF formatuan beste etiketa-izen batzuk erabiltzen dira):

<RDF>
  <Description about="http://www.zientzia.net/elhuyar.asp?Alea=251">
    <izenburua>Elhuyar Zientzia eta Teknika</izenburua>
    <alea>251</alea>
    <egilea>Elhuyar Fundazioa</egilea>
    <data>2009ko martxoa</data>
    <artikuluak>
      <artikulua resource="http://www.zientzia.net/artikulua.asp?Artik_kod=14412" />
        ...
    </artikuluak>
  </Description>
  <Description about="http://www.zientzia.net/artikulua.asp?Artik_kod=14412">
    <izenburua>Pirinioak, unibertsoaren laborategi</izenburua>
    <egilea>Oihane Lakar</egilea>
  </Description>
  ...
</RDF>

Era horretara, nahi duguna deskriba dezakegu. Baina gauza-mota bakoitza (pertsonak, musika taldeak, liburuak...) deskribatzeko erabili beharreko etiketetan ados jarri beharra dago; bestela, makinek ulertu gabe jarraituko lukete. Horretan laguntzen du OWL (Web Ontology Language) lengoaiak. OWLek ezagutza-arlo edo bizitzaren esparru jakin bateko objektu edo entitateak nola deskribatuko diren definitzea ahalbidetzen du.

Eta horiei aprobetxamendu egokia ateratzeko, beste hainbat teknologia ere definitzen dira web semantikoan: SPARQL (RDF ezagutza-baseak kontsultatu ahal izateko kontsulta-lengoaia), GRDDL (modu berezi baten kodetutako XML eta XHTML dokumentuetatik RDF sareak automatikoki erauzteko lengoaia) eta abar.

Adibide erreal bat:RSS formatua

Web semantikoaren ahalmenaren adibide txiki bat geure artean dugu aspalditik: blogek hasieratik, eta, gaur egun, Interneteko bestelako albisteguneek ere erabiltzen duten RSS (Really Simple Syndication) formatua. Izatez, RDF mota bat da (jatorrizko izena RDF Site Summary da), albisteak deskribatzen espezializatutakoa. Blogek berrikuntza handia ekarri zuten, informatika edo HTML ezagutza teknikorik izan gabe Interneten edukia sortzeko aukera eman baitzioten erabiltzaileari, eta jende berri asko hasi zen Interneten testuak jartzen. Baina blogek ez zuketen halako arrakasta izango RSS formatuagatik ez balitz.

Izan ere, blogak HTML formatuan soilik publikatu izan balira, hainbat blogen gaiak atsegin dituen irakurle batentzat ez litzateke erraza izango haiei jarraipena egitea. Aldian behin horietako guztietara sartu beharko luke, zerbait berririk dagoen ikusteko. Eta lan hori, gainera, askotan ezer berririk ez egoteko, edo ez gogoratzeko azkeneko aldian zein irakurri genituen... Azkenean, ezingo luke blog gutxi batzuen jarraipena baino egin.

Baina blogek, pertsonentzako HTML bertsioaz gain, makinentzako RSS bertsioa ere bazuten. Bertsio horretan, azken sarrera edo artikuluak agertzen ziren, horietako bakoitza etiketen bidez ondo ezberdinduta, eta bakoitzaren izenburua, egilea, data, laburpena, esteka eta abar ondo egituratuta, makinek ulertzeko moduan. Hala, RSS-irakurgailuak sortu ziren, norberak atsegin dituen blogen jarraipena egiteko. Irakurgailuak gure blog gogokoen RSSen jarraipen periodikoa egiten du, eta erabiltzaileari azkeneko sartu zenetik dauden berriak soilik erakutsi; horrela, hamarka edo ehunka blogen jarraipena egin daiteke. Eta blogetan espezializatutako bilatzaileak ere sortu ziren, eta RSSak batu eta filtratzeko zerbitzuak, egunkari eta aldizkarien webguneek ere jarri zuten RSSa, sare sozialek ere bai... Web 2.0ren iraultzaren benetako "errudunetako" bat RSSa izan zen.

Pentsa, blog eta albisteentzako etiketatze semantiko sinple batek hori egin badu, zer ez den gertatuko beste edonolako kontzeptuak (pertsonak, salgaiak, ekitaldiak...) ere semantikoki etiketatzen direnean...

Badaude beste adibide batzuk, esperimentalagoak oraingoz, web semantikoaren ahalmena erakusten saiatzen direnak, dbpedia.org proiektua adibidez. Wikipediako infobox-etatik (Wikipediako orri batzuk eskuinean izaten duten informazio egituratuzko kutxak, alegia) RDF sare erraldoi bat erauzi dute, eta SPARQL lengoaian hainbat kontzeptu erlazionatzen dituzten kontsulta konplexuak egin dakizkioke (bertako etsenplu baten "11 zenbakia duen futbol jokalaria, 40.000 pertsona baino gehiagorentzako kapazitatea duen estadioa daukan klub batekoa, 10 milioi biztanle baino gehiago dituen herrialde baten jaiotakoa" galdera dago!).

Web semantikoaren ajeak

Hala ere, ezin guztia ona izan. Badira jada urte batzuk web semantikoaren ideia sortu zela, eta gauzatzea asko kostatzen ari zaio. Izan ere, ez da lan erraza. Batetik, existitzen diren kontzeptu guztientzako ontologiak definitu eta adostu behar dira, eta, hainbat gauza jada egin diren arren, lan ikaragarria da.

Baina, bestetik, are garrantzitsuagoa dena, gero edukia formatu horietan sortu behar da, eta hori oso neketsua izan daiteke. Ezin dugu espero webguneak sortzen dituen jendeak RDF formatuan eskuz etiketatzea. Webguneak tresnak erabiliz sortzen dira aspalditik, eta tresna horiek izan beharko dira egokitu eta edukia formatu semantikoan ere sortuko dutenak, blog-plataformek zuzenean RSSa ere publikatzen duten bezala. Kasu jakin batzuetan, espero izatekoa da hori nahiko laster gertatzea, hala nola edukia berez nahiko egituratua den kasuetan (ekitaldien egutegiak, adibidez) edo enpresen interesekoak direnetan (on line dendetako produktuen deskribapen orriak, adibidez).

Zailagoa izango da gaur egun lengoaia naturalean idatzitako testuetan agertzen den informazio guztia ere semantikoki etiketatzea. Testu batean pertsonak, liburuak, haien ezaugarriak, haien arteko erlazioak eta abar deskribatzen direnean, hori semantikoki etiketatzea, tresna bisualen laguntzarekin ere, izugarrizko lana da. Eta ez dago, egutegiaren edo dendetako produktuen kasuetan bezala, automatikoki egiterik...

Makinak testua ulertzen?

Edo bai. Hainbat esperimentutan, Lengoaia Naturalaren Prozesamenduko (NLP) teknikak erabiltzen ari dira testu arruntetatik automatikoki etiketatze semantikoa erauzteko, batzuetan arrakastaz. Webgintzako tresnek agian horrelako LNPko teknikak integratu ditzakete, eta eduki sortzaileari lagundu diezaiokete etiketatze semantikoa sortzen, etorkizun ez hain urrun batean. Baina, bestalde, makinak hori benetan ongi egiteko gai badira, ez dago web semantikoaren beharrik, horrek esan nahi baitu makinak gai direla testua "ulertzeko", eta Interneteko bilatzaile eta bestelako agenteek zuzenean modu eraginkor batean tratatu ahal izango dituztela HTML formatuan dauden testuak.

Ez dakigu zein iritsiko den lehenago, semantikoki etiketatutako weba ala makinek testuaren semantika edo esanahia ulertzea. Eta, lehenengo kasua bada, ezin jakin zenbat eduki egongo den web semantikoan: web osoa etiketatuko den semantikoki, edo gauza jakin batzuk soilik (sinpleenak eta enpresen interesekoak), edo bien arteko zerbait... Edonola ere den, modu batera edo bestera, webean esanahiak gero eta garrantzi handiagoa izango du, eta, semantikari esker, zerbitzu gero eta hobeak izango ditugu. Sir Tim Berners-Leek berak aurtengo martxoan esana da: "Weba ez dago amaituta. Gaur egungo weba izebergaren punta besterik ez da. Teknologia berriak iritsiko dira, askoz ere boteretsuagoak, inoiz pentsatuko ez genituzkeen gauzak egitea ahalbidetuko digutenak. Onena iristear dago". Hala bedi!

Spider-Man		80%
Superman		70%
Green Lantern		65%
Robin		65%
The Flash		60%
Supergirl		55%
Hulk		55%
Iron Man		45%
Wonder Woman		35%
Catwoman		25%
Batman		0%