Edukira salto egin | Salto egin nabigazioara

Tresna pertsonalak

Eibarko peoria, San Blasa baino hobia
Hemen zaude: Hasiera / Blogak / e-gorblog / Interneteko bilatzaileak, etengabeko eboluzioa

Interneteko bilatzaileak, etengabeko eboluzioa

e-gor 2010/07/02 14:15
Internet da gizadiak inoiz eskura izan duen ezagutza-bankurik handiena. Nahi dugun informazioa han aurkitzeko, beharrezkoak ditugu bilatzaileak, hala nola Google, Yahoo edo Bing. Hasieran hitzen bilaketa hutsa egiten zuten, baina gero eta aukera gehiago dituzte. Eta bilatzaile-mota berriak ere hasi dira agertzen.
(Elhuyar aldizkariko 2010eko maiatzeko alean argitaratutako artikuluaren jatorrizko extended bertsioa)

Weba sortu zenean bilatzaileak oso sinpleak ziren. Emandako hitza edo hitzak zituzten dokumentuak bilatzen zituzten; gero irizpide orokor batzuen arabera ordenatu, eta kito. Baina arazo ugari zituzten: adibidez, askotan (izen bereziak, hitz teknikoak edo hitz laburrak bilatzean, esaterako), hasieran agertzen ziren emaitzak ez zeuden guk nahi genuen hizkuntzan; edo bilatutako hitzaren eratorriak ez zituzten bilatzen; ezta bilagaiaren sinonimoak ere; edo zerbaiti buruzko informazioa bilatu nahi genuenean, berau zein hizkuntzatan egon axola ez zitzaigula, informazioa hizkuntza bakarrean lortzen zen, baldin eta bilagaia ezberdin esaten bazen hizkuntza ezberdinetan; edo bilatu nahi zenak esanahi ugari bazituen, esanahi guztiei buruzko orriak agertzen ziren nahasita; eta abar.

Normalean, erabiltzaileak konpondu behar izaten zituen arazo horiek. OR (EDO) operatzaileekin eratorriak, sinonimoak edo beste hizkuntzetako ordainak gehitu behar ziren. Edo hizkuntza bereizteko edo esanahia zehazteko hitzak gehitu behar zitzaizkien bilaketari. Askotan bilaketa ugari egitea beste erremediorik ez dago. Eta, edozein kasutan, esperientzia nahiko frustrantea suertatu daiteke.

Denborarekin, arazo horiei konponbidea eman diete bilatzaileek. Aukera batzuk zuzenean integratu dituzte bilaketetan, eta beste batzuk aukera aurreratuetan eskaintzen dituzte. Horrez gain, bilatzaile espezializatuak sortu dira, arazo horietako batzuen konponbidea ematen dutenak. Alabaina, jende askok ez ditu ezagutzen aukera aurreratu edo bilatzaile espezializatu horiek, eta bilaketak lehengo moduan eta aipatutako trikimailuak baliatuz egiten jarraitzen du.

Hizkuntzaren araberako hobekuntzak

Lehen hobekuntzetako bat hizkuntzaren detekzioa izan zen. Hizkuntza-teknologiak erabiliz, webeko orri bat zer hizkuntzatan dagoen detektatzeko gai dira bilatzaileak, eta, horrela, hizkuntza jakin bateko orriak soilik eskaintzen dituzte. Hala, Avatar edo sistema bezalako hitzak bilatzean, beste hizkuntza askotan ere berdin esaten direnak, emaitzak guk nahi dugun hizkuntzan soilik egotea lor dezakegu.

Gainera, orrien hizkuntza ezaguna dutenean, hizkuntza horren araberako tratamendu berezia eskaintzen diote orriari. Adibidez, stemming edo sasi-lematizazioa aplikatzen diete hitz guztiei, eta horrela bilaketa hitzaren lemaren araberakoa izatea lortzen dute, aipatutako eratorrien arazoa gaindituz.

Hala ere, bilatzaile nagusiek hizkuntza garrantzitsuenekin edo sarean presentzia handiena dutenekin soilik egiten dute hori; eta hori ez da euskararen kasua. Euskarazko emaitzak soilik eta lema bidezkoak nahi ditugunean, Elebila bilatzailea erabil dezakegu (http://www.elebila.eu), Elhuyar Fundazioko I+G taldearen teknologian oinarrituta Eleka enpresak komertzializatutako bilatzailea.

Eleaniztasuna

Beste kasu batzuetan kontrakoa interesatuko zaigu, hau da, gauza jakin bati buruz dauden web-orririk interesgarrienak lortzea, zernahi hizkuntzatan daudela. Hau ahalbidetzea helburu duen ikerketa-lerroari hizkuntzarteko informazio-bilaketa deritzo. Bilatu nahi den hitza edo hitzak beste hizkuntzetara itzultzen dira, bai eta horietan bilaketa egin ere; ondoren, hizkuntza bakoitzeko emaitzarik esanguratsuenak bueltatzen dira. Zirkulua ixteko, emaitza guztiak itzulpen automatiko bidez hasierako hizkuntzara itzul daitezke.

Horrelakoen adibide esperimental batzuk http://terpconnect.umd.edu/~dlrg/clir/systems.html helbidean aurki daitezke. Bilatzaile komertzialetan Google da horrelako zerbait egiten duen bakarra, Google Translated Search zerbitzuaren bidez (http://translate.google.com/translate_s). Hala, esaterako, "bars in Moscow" ("tabernak Moskun") bilatzeko eska diezaiokegu errusieraz dauden orrietan. Hark galdera errusierara itzuli, bilaketa egin, eta ondoren ingelesera itzuliko ditu emaitzak.

Euskarari dagokionean, Elhuyar Fundazioaren I+G taldeak laster kaleratu behar du Zientzianitz hizkuntzarteko zientzia-bilatzailea. Bilatu nahi duguna euskaraz emanik, euskarazko, gaztelaniazko eta ingelesezko zientzia-webgune esanguratsuenetan bilatuko du eskatutakoa, aurrez bilagaia hizkuntza horietara itzulita noski.

Esanahia oinarri

Gerta daiteke guk bilatu nahi dugun kontzeptua adierazteko hainbat hitz egotea. Guk horietako bat emango diogu bilatzaileari, eta berak hitz zehatz hori duten orriak soilik bueltatuko dizkigu, ez sinonimoak dituztenak. Emaitzak hobetzeko, batez ere emaitza gutxi dauden kasuetan, galderaren hedapena deritzon teknika erabil daiteke, hitzaren sinonimoak edo aldaerak ere bilatzean datzana. Horrelakoekin ari dira ikertzen eta esperimentatzen informazio-bilaketan ari direnak. Googlek, adibidez, sinonimoak ere bilatzen ditu hitzaren aurretik ~ ikurra jarriz gero. Elebila euskarazko bilatzaileak automatikoki bilatu ez, baina aukeran emango dizkizu hitzaren aldaera edo sinonimoak.

Bestalde, bilatu nahi dugun hitzak esanahi bat baino gehiago baditu, guri horietako batekin lotutako emaitzak soilik interesatuko zaizkigu normalean. Horiek bakarrik itzultzea oso lagungarria da, edo gutxienez emaitzak esanahi ezberdinen arabera taldekatuta agertzea. Horrelako zerbait egiten saiatzen dira Microsoft-en Bing Reference bilatzailea (http://www.bing.com/reference) -Wikipediako artikuluen gainean soilik, hala ere- edo Hakia bilatzailea (http://www.hakia.com).

Duela hilabete batzuk web semantikoari buruz hitz egin genizuen, eta hau ere esanahian oinarritzen da. Semantikoki etiketatutako weba iristen denean (iristen bada), esanahian oinarritutako bilatzaile oso ahaltsuak egin ahal izango dira.

Edonola ere, ikusi ditugun azken lau aukerak inplementatu ahal izateko (hitza beste hizkuntzetara itzultzea, galdera sinonimoen bidez hedatzea, esanahi zehatzarekin lotutako emaitzak soilik bueltatzea eta web semantikoko bilatzaileak), bilatzaileak asmatu beharra du hitzaren esanahietako zein interesatzen zaion erabiltzaileari. Hori egiteko hainbat modu daude. Bat da erabiltzaileari zuzenean galdetzea zein den interesatzen zaion esanahia edo hitza ongi itzuli den. Beste bat da hizkuntza-teknologien bidez esanahia asmatzen saiatzea beste hitzek ematen duten testuingurua baliatuz, baina horretarako hitz bat baino gehiagoz osatua egon behar da bilaketa. Eta beste bat da erabiltzailearen bilaketa-historialaz edo kokapen geografikoaz baliatuz esanahia asmatzen saiatzea. Azken hau egiten du Googlek, baina berariaz horretarako baimena ematen badiogu soilik, pribatutasuna babesteko.

Galderak erantzunez

Hainbat kasutan, ez dugu Internetera jotzen zerbaiti buruzko informazioa emango diguten dokumentu edo orrien bila, galdera baten erantzun zehatzaren bila baizik. Bilatzaile arrunt bati galdera eginez gero, galderako hitzak dituzten dokumentuen zerrenda itzuliko digu; zortea badugu, erakusten dizkigun laburpen edo erauzkinetan erantzuna aurkituko dugu, bestela, emaitzetako orrietan sartu beharko gara eta erantzun zehatza guk geuk bilatu.

Baina badaude hizkuntza naturalean egindako galderei erantzuteko gai diren sistemak ere. Hauek normalean hizkuntza-teknologiak erabiltzen dituzte galdera ulertzeko, eta erantzuna bilatzeko hurbilpen ezberdinak daude. Batzuek testuak eta informazio-bilaketako eta hizkuntza-teknologietako teknikak darabiltzate, hala nola MIT-eko START sistemak (http://start.csail.mit.edu/) edo IXA Taldeak garatutako Ihardetsi, euskarazko galderei erantzuten diena. Beste batzuek ezagutza egituratua eta arrazonamendu automatikoa erabiltzen dute, adibidez Wolfram Alpha (http://www.wolframalpha.com) edo TrueKnowledge (http://www.trueknowledge.com). Eta web semantikoa erabiltzen dutenak ere ari dira garatzen, DBPedia (http://dbpedia.org) kasu.

Zalantzarik ez dago bilatzaileek asko eboluzionatu dutela euren sorreratik, eta gaur egun ere hobetzen jarraitzen dutela. Horiei esker, eta oraindik nahiko egoera esperimentalean dauden eta ahalmen nahiz aukera berriak eskaintzen dituzten bilatzaile berriei esker, etorkizunean webean egingo ditugun bilaketak asko erraztuko dira, ziur.

Luistxo Fernandez
Luistxo Fernandez dio:
2010/07/02 16:27

Beste faktore bat: lan editorial humanoa. Gero eta agerikoagoa Googlen. Enrique Dans-ek deskribatu du kasua berriki, beste batzuen artean.

Iruzkina gehitu

Erantzuna formulario hau betez utzi dezakezu. Formatua testu arruntarena da. Web eta e-posta helbideak automatikoki klikagarri agertuko dira.

Galdera: Idatzi zortzi zenbakiak erabiliz
Erantzuna:
e-gorblog

Egunez, Igor Leturia Azkarate pertsona arrunta da. Errenterian bizi den arrasatearra, 8etatik 17etara Elhuyarren lan egiten du eta arratsaldeak neskalagunarekin eta bere bi umeekin pasatzen ditu.

Baina gaua iritsi eta umeak lotara joaten direnean, e-gor bihurtzen da, interneteko bere alter-egoa, ziberespazioko informatikaririk komikizaleena eta komikizalerik informatikariena! Bere superbotereekin (interneteko kable-konexioa, bloglines, informatika aldizkariak, gadget-ak, komiki-bilduma, Errenteriko liburutegiko komikien atala eta batez ere bere jakinmin aseezina) eta bere superlaguntzaileak ondoan dituela (Patxi Lurra, DabilenHarria...), euskaldunon teknofobiaren eta komikiei buruzko aurreiritzien aurka burrukatzen du etengabe! Hemen duzu bere bloga: e-gorblog!

Bai, hor goiko aurkezpena superheroi batena da (ezin aproposagoa honelako blog batentzat, ezta?). Superheroia banintz zein izango nintzatekeen jakiteko the Superhero Personality Test egin nuen eta hona emaitzak:

You are Spider-Man
You are intelligent, witty, a bit geeky and have great power and responsibility.

Spider-Man
80%
Superman
70%
Green Lantern
65%
Robin
65%
The Flash
60%
Supergirl
55%
Hulk
55%
Iron Man
45%
Wonder Woman
35%
Catwoman
25%
Batman
0%
Lizentzia

Creative Commons-en baimena
Blog honetako edukia, Igor Leturiak eta beste kolaboratzaile batzuek egiten dutena, Creative Commons Aitortu-PartekatuBerdin 3.0 Unported baimen baten mende dago (irudiak salbu).

Artxiboa
2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024
Artikulu aipagarriak

MythTV sorta
2004/11

"Pololoak" sorta
2004/11-12 - 2006/10-12 - 2007/02-03

Monoblogoa
2005/01/11

"Persepolis", xalotasunaren sakontasuna
2005/01/25

Elgetako Blogs&Beers 2005: nire inpresioa eta moblogging kontuak
2005/04/18

Firefox eta bere plugin zoragarriak
2005/05/11

"El País"-en komiki bilduma
2005/05/15

Euskarazko bi blog berri (bai, beste bi, baina hauek bereziak dira!)
2005/05/25

"Watchmen" sorta
2005/09-11 - 2006/10 - 2007/10 - 2008/07

"La cárcel de papel"-eko "Mis tebeos favoritos" saila I: 1etik 20ra
2005/11/08

"Goienkaria"-n agertu naiz
2005/12/08

Komikiak eta euskal rock-a
2005/12/14

Ruben Arozena "Ruben" komikigilea hil da
2006/01/02

Zope-rako DTML Calendar Tag produktua, euskaraz
2006/02/01

"Joyas Literarias Juveniles" bilduma, osorik eMule-n
2006/08/05

Argazkigintza eta DRM-a
2006/10/09

Paul Auster eta Euskararen Herria
2006/10/29

Angoulême sorta
2007/01-02

Gaur duela 25 urte nire bizitza aldatu zen
2007/04/23

Hergé-ren defentsan
2007/05/22

Ubuntu-ren bertsio berria, hobekuntza askorekin
2007/07/02

OLPC sorta
2007/12 - 2008/01

Guillermo Zubiaga, Marvel-eko komikilari euskalduna
2008/02/05

Asus EEE PC, ordenagailu txiki eta merkeen hurrengo sorta
2008/03/11

Agur, Ipurbeltz, agur... :-(
2008/08/04

"Café Budapest", gizatasuna eta bizikidetzaren aldeko aldarria
2008/08/25

"Arturo Erregea" serie mitikoa, Euskal Encodings-en! (beste askorekin batera)
2008/09/17

"Gazteak", beste serie mitiko bat euskaraz eskuragai!
2008/10/14

Pottokiek 50 urte!
2008/10/22

Europan ere OLPC-ren XO ordenagailuak erosteko aukera!
2008/11/12

Microsoft-en web zerbitzuetako gehienak, euskaraz!
2008/12/04

"Heroes"-en 2. denboraldia: ETB kirtenkeria errepikatzera, eta Euskal Encodings konpontzera
2009/01/23

I. Euskal OLPC Party-a, apirilaren 23an Donostiako Doka kafe antzokian
2009/04/16

Elkarrizketa egin didate 7K-n
2009/06/03

Azpiriren Spectrum-entzako jokoen azalak liburu batean
2009/10/06

Asterix, heroi garaitua
2009/10/29

"Ihes ederra", euskarazko komikigintzaren heldutasunaren konfirmazioa
2009/11/13

Pololoak 3: The making of
2009/11/22

5 urte 5!
2009/12/15

Nobela grafikoa, komikien prestigiorako ala mespretxurako?
2009/12/20

"Pololoak 3 - Atxeritoko balada", trilogiaren amaiera borobila
2010/01/13

Sinclair ZX Spectrum bat oparitu didate!
2010/01/19

Zergatik ez dudan liburu elektronikorik erosiko (gauzak aldatzen ez diren artean)
2010/01/27

Errealitate areagotua: munduaren pertzepzioa aberasten
2010/02/09

e-gorblog, "Nick dut nik" telebista saioan
2010/05/20

Sarearen neutraltasunari erasoak: Interneten izaera arriskuan
2010/06/02

"Avatar, azken aire maisua" osoa eta "Heroiak"-en lehen bi denboraldiak, Euskal Encodings-en
2010/07/22

Sistema eragileen guda berria
2010/12/14

Anubis 3.0 albumarentzat 3D animazio ederra
2010/12/27

Telebistaren benetako iraultza hemen da, eta ez da LTDa
2011/01/10

"Asterix galiarra" eta "Urrezko igitaia" berrargitaratu ditu Salvatek
2011/01/13

Euskarazko komikigintza digitalizazioaren aurrean
2011/01/27

"Ihes ederra"ren gaztelaniazko eta katalanezko bertsioak eta "Alokairuan", kalean
2011/02/20

Star Wars jatorrizko trilogia, euskaraz
2011/03/21

Sare sozialetan preso
2011/04/06

Zer dudan Steve Jobsen, edo Appleren, aurka
2011/10/14

Gaur 100 urte Adèle Blanc-Sec-en abenturak hasi zirela
2011/11/04

Euskarazko 8 komiki berri
2011/12/02

Social networks killed the RSS star?
2012/06/10