Interneteko bilatzaileak, etengabeko eboluzioa
- (Elhuyar aldizkariko 2010eko maiatzeko alean argitaratutako artikuluaren jatorrizko extended bertsioa)
Weba sortu zenean bilatzaileak oso sinpleak ziren. Emandako hitza edo hitzak zituzten dokumentuak bilatzen zituzten; gero irizpide orokor batzuen arabera ordenatu, eta kito. Baina arazo ugari zituzten: adibidez, askotan (izen bereziak, hitz teknikoak edo hitz laburrak bilatzean, esaterako), hasieran agertzen ziren emaitzak ez zeuden guk nahi genuen hizkuntzan; edo bilatutako hitzaren eratorriak ez zituzten bilatzen; ezta bilagaiaren sinonimoak ere; edo zerbaiti buruzko informazioa bilatu nahi genuenean, berau zein hizkuntzatan egon axola ez zitzaigula, informazioa hizkuntza bakarrean lortzen zen, baldin eta bilagaia ezberdin esaten bazen hizkuntza ezberdinetan; edo bilatu nahi zenak esanahi ugari bazituen, esanahi guztiei buruzko orriak agertzen ziren nahasita; eta abar.
Normalean, erabiltzaileak konpondu behar izaten zituen arazo horiek. OR (EDO) operatzaileekin eratorriak, sinonimoak edo beste hizkuntzetako ordainak gehitu behar ziren. Edo hizkuntza bereizteko edo esanahia zehazteko hitzak gehitu behar zitzaizkien bilaketari. Askotan bilaketa ugari egitea beste erremediorik ez dago. Eta, edozein kasutan, esperientzia nahiko frustrantea suertatu daiteke.
Denborarekin, arazo horiei konponbidea eman diete bilatzaileek. Aukera batzuk zuzenean integratu dituzte bilaketetan, eta beste batzuk aukera aurreratuetan eskaintzen dituzte. Horrez gain, bilatzaile espezializatuak sortu dira, arazo horietako batzuen konponbidea ematen dutenak. Alabaina, jende askok ez ditu ezagutzen aukera aurreratu edo bilatzaile espezializatu horiek, eta bilaketak lehengo moduan eta aipatutako trikimailuak baliatuz egiten jarraitzen du.
Hizkuntzaren araberako hobekuntzak
Lehen hobekuntzetako bat hizkuntzaren detekzioa izan zen. Hizkuntza-teknologiak erabiliz, webeko orri bat zer hizkuntzatan dagoen detektatzeko gai dira bilatzaileak, eta, horrela, hizkuntza jakin bateko orriak soilik eskaintzen dituzte. Hala, Avatar edo sistema bezalako hitzak bilatzean, beste hizkuntza askotan ere berdin esaten direnak, emaitzak guk nahi dugun hizkuntzan soilik egotea lor dezakegu.
Gainera, orrien hizkuntza ezaguna dutenean, hizkuntza horren araberako tratamendu berezia eskaintzen diote orriari. Adibidez, stemming edo sasi-lematizazioa aplikatzen diete hitz guztiei, eta horrela bilaketa hitzaren lemaren araberakoa izatea lortzen dute, aipatutako eratorrien arazoa gaindituz.
Hala ere, bilatzaile nagusiek hizkuntza garrantzitsuenekin edo sarean presentzia handiena dutenekin soilik egiten dute hori; eta hori ez da euskararen kasua. Euskarazko emaitzak soilik eta lema bidezkoak nahi ditugunean, Elebila bilatzailea erabil dezakegu (http://www.elebila.eu), Elhuyar Fundazioko I+G taldearen teknologian oinarrituta Eleka enpresak komertzializatutako bilatzailea.
Eleaniztasuna
Beste kasu batzuetan kontrakoa interesatuko zaigu, hau da, gauza jakin bati buruz dauden web-orririk interesgarrienak lortzea, zernahi hizkuntzatan daudela. Hau ahalbidetzea helburu duen ikerketa-lerroari hizkuntzarteko informazio-bilaketa deritzo. Bilatu nahi den hitza edo hitzak beste hizkuntzetara itzultzen dira, bai eta horietan bilaketa egin ere; ondoren, hizkuntza bakoitzeko emaitzarik esanguratsuenak bueltatzen dira. Zirkulua ixteko, emaitza guztiak itzulpen automatiko bidez hasierako hizkuntzara itzul daitezke.
Horrelakoen adibide esperimental batzuk http://terpconnect.umd.edu/~dlrg/clir/systems.html helbidean aurki daitezke. Bilatzaile komertzialetan Google da horrelako zerbait egiten duen bakarra, Google Translated Search zerbitzuaren bidez (http://translate.google.com/translate_s). Hala, esaterako, "bars in Moscow" ("tabernak Moskun") bilatzeko eska diezaiokegu errusieraz dauden orrietan. Hark galdera errusierara itzuli, bilaketa egin, eta ondoren ingelesera itzuliko ditu emaitzak.
Euskarari dagokionean, Elhuyar Fundazioaren I+G taldeak laster kaleratu behar du Zientzianitz hizkuntzarteko zientzia-bilatzailea. Bilatu nahi duguna euskaraz emanik, euskarazko, gaztelaniazko eta ingelesezko zientzia-webgune esanguratsuenetan bilatuko du eskatutakoa, aurrez bilagaia hizkuntza horietara itzulita noski.
Esanahia oinarri
Gerta daiteke guk bilatu nahi dugun kontzeptua adierazteko hainbat hitz egotea. Guk horietako bat emango diogu bilatzaileari, eta berak hitz zehatz hori duten orriak soilik bueltatuko dizkigu, ez sinonimoak dituztenak. Emaitzak hobetzeko, batez ere emaitza gutxi dauden kasuetan, galderaren hedapena deritzon teknika erabil daiteke, hitzaren sinonimoak edo aldaerak ere bilatzean datzana. Horrelakoekin ari dira ikertzen eta esperimentatzen informazio-bilaketan ari direnak. Googlek, adibidez, sinonimoak ere bilatzen ditu hitzaren aurretik ~ ikurra jarriz gero. Elebila euskarazko bilatzaileak automatikoki bilatu ez, baina aukeran emango dizkizu hitzaren aldaera edo sinonimoak.
Bestalde, bilatu nahi dugun hitzak esanahi bat baino gehiago baditu, guri horietako batekin lotutako emaitzak soilik interesatuko zaizkigu normalean. Horiek bakarrik itzultzea oso lagungarria da, edo gutxienez emaitzak esanahi ezberdinen arabera taldekatuta agertzea. Horrelako zerbait egiten saiatzen dira Microsoft-en Bing Reference bilatzailea (http://www.bing.com/reference) -Wikipediako artikuluen gainean soilik, hala ere- edo Hakia bilatzailea (http://www.hakia.com).
Duela hilabete batzuk web semantikoari buruz hitz egin genizuen, eta hau ere esanahian oinarritzen da. Semantikoki etiketatutako weba iristen denean (iristen bada), esanahian oinarritutako bilatzaile oso ahaltsuak egin ahal izango dira.
Edonola ere, ikusi ditugun azken lau aukerak inplementatu ahal izateko (hitza beste hizkuntzetara itzultzea, galdera sinonimoen bidez hedatzea, esanahi zehatzarekin lotutako emaitzak soilik bueltatzea eta web semantikoko bilatzaileak), bilatzaileak asmatu beharra du hitzaren esanahietako zein interesatzen zaion erabiltzaileari. Hori egiteko hainbat modu daude. Bat da erabiltzaileari zuzenean galdetzea zein den interesatzen zaion esanahia edo hitza ongi itzuli den. Beste bat da hizkuntza-teknologien bidez esanahia asmatzen saiatzea beste hitzek ematen duten testuingurua baliatuz, baina horretarako hitz bat baino gehiagoz osatua egon behar da bilaketa. Eta beste bat da erabiltzailearen bilaketa-historialaz edo kokapen geografikoaz baliatuz esanahia asmatzen saiatzea. Azken hau egiten du Googlek, baina berariaz horretarako baimena ematen badiogu soilik, pribatutasuna babesteko.
Galderak erantzunez
Hainbat kasutan, ez dugu Internetera jotzen zerbaiti buruzko informazioa emango diguten dokumentu edo orrien bila, galdera baten erantzun zehatzaren bila baizik. Bilatzaile arrunt bati galdera eginez gero, galderako hitzak dituzten dokumentuen zerrenda itzuliko digu; zortea badugu, erakusten dizkigun laburpen edo erauzkinetan erantzuna aurkituko dugu, bestela, emaitzetako orrietan sartu beharko gara eta erantzun zehatza guk geuk bilatu.
Baina badaude hizkuntza naturalean egindako galderei erantzuteko gai diren sistemak ere. Hauek normalean hizkuntza-teknologiak erabiltzen dituzte galdera ulertzeko, eta erantzuna bilatzeko hurbilpen ezberdinak daude. Batzuek testuak eta informazio-bilaketako eta hizkuntza-teknologietako teknikak darabiltzate, hala nola MIT-eko START sistemak (http://start.csail.mit.edu/) edo IXA Taldeak garatutako Ihardetsi, euskarazko galderei erantzuten diena. Beste batzuek ezagutza egituratua eta arrazonamendu automatikoa erabiltzen dute, adibidez Wolfram Alpha (http://www.wolframalpha.com) edo TrueKnowledge (http://www.trueknowledge.com). Eta web semantikoa erabiltzen dutenak ere ari dira garatzen, DBPedia (http://dbpedia.org) kasu.
Zalantzarik ez dago bilatzaileek asko eboluzionatu dutela euren sorreratik, eta gaur egun ere hobetzen jarraitzen dutela. Horiei esker, eta oraindik nahiko egoera esperimentalean dauden eta ahalmen nahiz aukera berriak eskaintzen dituzten bilatzaile berriei esker, etorkizunean webean egingo ditugun bilaketak asko erraztuko dira, ziur.
Beste faktore bat: lan editorial humanoa. Gero eta agerikoagoa Googlen. Enrique Dans-ek deskribatu du kasua berriki, beste batzuen artean.