Edukira salto egin | Salto egin nabigazioara

Tresna pertsonalak

Eibarko peoria, San Blasa baino hobia
Hemen zaude: Hasiera / Blogak / e-gorblog / Elhuyarren hizkuntza-teknologiak: Bilaketa eleaniztunak

Elhuyarren hizkuntza-teknologiak: Bilaketa eleaniztunak

e-gor 2012/11/28 22:30
Elhuyar Fundazioko hizkuntza-teknologien I+G sailean lantzen dugun alorretako bat IR ( Information Retrieval edo Informazio Bilaketa) da, eduki digitalen kudeaketa eta bilaketa errazteaz arduratzen den informatikaren arloa alegia. Azken urteetan, horren inguruko bi teknologia gure ustetan oso baliagarriak garatzen aritu gara: Elezkari bilatzaile eleaniztuna eta Dokusare dokumentu-erlazionatzaile eleaniztuna. Berriki, biak Zientzia.net atarian inplementatu ditugu, eta uztailean aurkeztu genituen jendaurrean.
Elhuyarren hizkuntza-teknologiak: Bilaketa eleaniztunak

Irudia: Zientzia.net

(Elhuyar aldizkariko 2012ko iraileko zenbakian argitaratutako artikuluaren jatorrizko extended bertsioa)

Duela bi urte, aldizkari honen atal honetan bertan, Interneteko bilatzaileek izan duten eboluzioa eta etorkizunean izango dituzten ahalmen berriak aurkeztu genizkizuen. Orduan aipatzen genuen Elhuyarko hizkuntza-teknologien I+G sailean ari ginela ikertzen eduki eleaniztunean hobeto nabigatu eta bilatzeko tekniken inguruan. Teknologia horiek jada errealitate dira eta hemen zehatzago azalduko dugu zer diren eta zertarako diren erabilgarriak.

Elezkari, bilatzaile eleaniztuna

Sarean euskaraz aritzeko ohitura dugunok bi arazo nagusi izaten ditugu edukia bilatu nahi dugunean. Bata, euskarazko edukia bilatu nahi dugunean: bilatu nahi duguna izen berezia bada, edo teknikoa, edo laburra, aukera handiak daude hori bera beste hizkuntza batzuetan ere berdin esateko, eta beste hizkuntzetako emaitzak agertuko zaizkigu euskarazkoak agertu beharrean. Bestea, zerbaiti buruzko edukia bilatu nahi dugunean, ahal bada euskaraz baina ezin bada besteren batean (euskaldun ia guztiak gutxienez elebidunak baikara): lehenengo bilaketa euskaraz egingo dugu; emaitza egokirik ez badugu aurkitzen (zoritxarrez maiz gerta daitekeena, euskaraz dagoen edukia ez baita nahiko genukeen bezain ugaria), beste bilaketa bat egingo dugu ongi moldatzen garen beste hizkuntzaren batean, demagun gaztelaniaz edo frantsesez, horretarako bilaketa-terminoak itzuliz (sarri batere erraza ez den kontua); eta gustura gelditzen ez bagara, ingelesera joko dugu, berriz ere hitzak itzuliz eta beste bilaketa bat eginez.

Hori ekiditeko garatu dugu Elezkari deitu dugun teknologia. Bertan, guk bilaketa bakarra egingo dugu euskaraz, eta bera arduratuko da hitzak beste hizkuntzetara itzultzeaz eta bilatu behar den tokietan bilatzeaz, gero emaitzarik esanguratsuenak bueltatzeko, dauden hizkuntzan daudela.

Tresnaren indargunea bilaketa-terminoen itzulpena da. Hiztegiak eta hizkuntza-teknologiak konbinatzen ditu itzulpen egokia emateko, eta hau ez da gai hutsala: anbiguotasunak ebazten dira ordain egokia aurkitzeko, sinonimoak baliatzen dira emaitza gehiago lortzeko baina nahi gabeko emaitzak baztertuz... Tresna oso baliagarria da kasu askotarako: edukia hainbat hizkuntzatan duten webguneetan, bilaketa hainbat webgunetan egitea ahalbidetu nahi duten atari espezializatuetan, enpresetako intranetetan eta abar. Eta goian aipatutako erabilera-adibidean abioko hizkuntza euskara bazen ere, beste edozein izan daiteke. Gainera, tresnarentzako hedatze posible bat izan daiteke beste hizkuntzetan dauden emaitzak abioko hizkuntzara itzultzea itzulpen automatiko bidez, teknologia hori ere lantzen baitugu. Existitzen diren antzeko tresnen mailan dago Elezkari, baina euskara kontuan hartzen duen bakarra da.

Dokusare, dokumentu-erlazionatzaile eleaniztuna

Komunikabideen online bertsioetan, blogetan eta eduki ugaria duten webguneetan oso ohikoa da, albiste edo artikulu jakin batean gaudela, amaieran antzeko edukietarako estekak erakustea, gaiaren inguruan sakondu ahal izateko. Esteka horiek metodo automatikoen bidez jartzen dira, baina normalean webgune horretako bertako edukirakoak izaten direnez eta hizkuntza berean egoten direnez, oso sinpleak izaten dira metodook, hitzen kointzidentzia hutsean oinarrituak.

Dokusare teknologiak hori bera egiten du, baina hainbat hizkuntzatan dagoen edukia erlazionatzeko eta antzekoenak bilatzeko gai da. Edukia hizkuntza batean baino gehiagotan duten komunikabide eta webguneek baliatu dezakete, edo kanpoko webguneetako eduki erlazionatua erakutsi nahi dutenek.

Biak Zientzia.net atarian

Dokusare eta Elezkari ikerketa proiektu gisa jaio ziren eta urteetan aritu gara haietan ikertzen eta nazioarteko kongresuetan aurrerapenak aurkezten, baina gaur egun funtzionatzen duten teknologiak dira. Elhuyar Fundazioaren Zientzia.net webgunean jarri dira martxan estreinakoz, uztailean prentsaurrean aurkeztu genuenez. Euskarazko zientziaren ataria izateko bokazioa du Zientzia.net-ek, eta horregatik ez ditu bere bilatzailea eta antzeko edukietarako estekak barne-edukira mugatzen. Zientziari buruzko erreferentziazko nazioarteko hainbat webgunetako edukia ere hartzen du kontuan bi kasuetan: Nature, Science , Physics World, Futurity... Hala, Zientzia.net-eko bertako edukiez gain, webgune horietako edukia atzitu eta bilatu ditzakegu, beti euskaratik abiatuta.

Hizkuntza-teknologiek eman dezaketenaren adibide bikainak dira Dokusare eta Elezkari. Teknologia horiek aurrerapauso handia dira erabiltzaileentzat eta euskararentzat. Beraz, espero dezagun etorkizunean teknologia horiek toki gehiagotan ikustea, eta horrelako teknologia gehiago eguneroko bilakatzea.

Iruzkina gehitu

Erantzuna formulario hau betez utzi dezakezu. Formatua testu arruntarena da. Web eta e-posta helbideak automatikoki klikagarri agertuko dira.

Galdera: Zenbat dira hiru ken lau (idatzi zenbakiz) ?
Erantzuna:
e-gorblog

e-gorblog

Egunez, Igor Leturia Azkarate pertsona arrunta da. Errenterian bizi den arrasatearra, 8etatik 17etara Elhuyarren lan egiten du eta arratsaldeak neskalagunarekin eta bere bi umeekin pasatzen ditu.

Baina gaua iritsi eta umeak lotara joaten direnean, e-gor bihurtzen da, interneteko bere alter-egoa, ziberespazioko informatikaririk komikizaleena eta komikizalerik informatikariena! Bere superbotereekin (interneteko kable-konexioa, bloglines, informatika aldizkariak, gadget-ak, komiki-bilduma, Errenteriko liburutegiko komikien atala eta batez ere bere jakinmin aseezina) eta bere superlaguntzaileak ondoan dituela (Patxi Lurra, DabilenHarria...), euskaldunon teknofobiaren eta komikiei buruzko aurreiritzien aurka burrukatzen du etengabe! Hemen duzu bere bloga: e-gorblog!

Bai, hor goiko aurkezpena superheroi batena da (ezin aproposagoa honelako blog batentzat, ezta?). Superheroia banintz zein izango nintzatekeen jakiteko the Superhero Personality Test egin nuen eta hona emaitzak:

You are Spider-Man
You are intelligent, witty, a bit geeky and have great power and responsibility.

Spider-Man
80%
Superman
70%
Green Lantern
65%
Robin
65%
The Flash
60%
Supergirl
55%
Hulk
55%
Iron Man
45%
Wonder Woman
35%
Catwoman
25%
Batman
0%
Lizentzia

Creative Commons-en baimena
Blog honetako edukia, Igor Leturiak eta beste kolaboratzaile batzuek egiten dutena, Creative Commons Aitortu-PartekatuBerdin 3.0 Unported baimen baten mende dago (irudiak salbu).

Harpidetza
Erantzunen harpidetza
Artxiboa
2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019
Artikulu aipagarriak

MythTV sorta
2004/11

"Pololoak" sorta
2004/11-12 - 2006/10-12 - 2007/02-03

Monoblogoa
2005/01/11

"Persepolis", xalotasunaren sakontasuna
2005/01/25

Elgetako Blogs&Beers 2005: nire inpresioa eta moblogging kontuak
2005/04/18

Firefox eta bere plugin zoragarriak
2005/05/11

"El País"-en komiki bilduma
2005/05/15

Euskarazko bi blog berri (bai, beste bi, baina hauek bereziak dira!)
2005/05/25

"Watchmen" sorta
2005/09-11 - 2006/10 - 2007/10 - 2008/07

"La cárcel de papel"-eko "Mis tebeos favoritos" saila I: 1etik 20ra
2005/11/08

"Goienkaria"-n agertu naiz
2005/12/08

Komikiak eta euskal rock-a
2005/12/14

Ruben Arozena "Ruben" komikigilea hil da
2006/01/02

Zope-rako DTML Calendar Tag produktua, euskaraz
2006/02/01

"Joyas Literarias Juveniles" bilduma, osorik eMule-n
2006/08/05

Argazkigintza eta DRM-a
2006/10/09

Paul Auster eta Euskararen Herria
2006/10/29

Angoulême sorta
2007/01-02

Gaur duela 25 urte nire bizitza aldatu zen
2007/04/23

Hergé-ren defentsan
2007/05/22

Ubuntu-ren bertsio berria, hobekuntza askorekin
2007/07/02

OLPC sorta
2007/12 - 2008/01

Guillermo Zubiaga, Marvel-eko komikilari euskalduna
2008/02/05

Asus EEE PC, ordenagailu txiki eta merkeen hurrengo sorta
2008/03/11

Agur, Ipurbeltz, agur... :-(
2008/08/04

"Café Budapest", gizatasuna eta bizikidetzaren aldeko aldarria
2008/08/25

"Arturo Erregea" serie mitikoa, Euskal Encodings-en! (beste askorekin batera)
2008/09/17

"Gazteak", beste serie mitiko bat euskaraz eskuragai!
2008/10/14

Pottokiek 50 urte!
2008/10/22

Europan ere OLPC-ren XO ordenagailuak erosteko aukera!
2008/11/12

Microsoft-en web zerbitzuetako gehienak, euskaraz!
2008/12/04

"Heroes"-en 2. denboraldia: ETB kirtenkeria errepikatzera, eta Euskal Encodings konpontzera
2009/01/23

I. Euskal OLPC Party-a, apirilaren 23an Donostiako Doka kafe antzokian
2009/04/16

Elkarrizketa egin didate 7K-n
2009/06/03

Azpiriren Spectrum-entzako jokoen azalak liburu batean
2009/10/06

Asterix, heroi garaitua
2009/10/29

"Ihes ederra", euskarazko komikigintzaren heldutasunaren konfirmazioa
2009/11/13

Pololoak 3: The making of
2009/11/22

5 urte 5!
2009/12/15

Nobela grafikoa, komikien prestigiorako ala mespretxurako?
2009/12/20

"Pololoak 3 - Atxeritoko balada", trilogiaren amaiera borobila
2010/01/13

Sinclair ZX Spectrum bat oparitu didate!
2010/01/19

Zergatik ez dudan liburu elektronikorik erosiko (gauzak aldatzen ez diren artean)
2010/01/27

Errealitate areagotua: munduaren pertzepzioa aberasten
2010/02/09

e-gorblog, "Nick dut nik" telebista saioan
2010/05/20

Sarearen neutraltasunari erasoak: Interneten izaera arriskuan
2010/06/02

"Avatar, azken aire maisua" osoa eta "Heroiak"-en lehen bi denboraldiak, Euskal Encodings-en
2010/07/22

Sistema eragileen guda berria
2010/12/14

Anubis 3.0 albumarentzat 3D animazio ederra
2010/12/27

Telebistaren benetako iraultza hemen da, eta ez da LTDa
2011/01/10

"Asterix galiarra" eta "Urrezko igitaia" berrargitaratu ditu Salvatek
2011/01/13

Euskarazko komikigintza digitalizazioaren aurrean
2011/01/27

"Ihes ederra"ren gaztelaniazko eta katalanezko bertsioak eta "Alokairuan", kalean
2011/02/20

Star Wars jatorrizko trilogia, euskaraz
2011/03/21

Sare sozialetan preso
2011/04/06

Zer dudan Steve Jobsen, edo Appleren, aurka
2011/10/14

Gaur 100 urte Adèle Blanc-Sec-en abenturak hasi zirela
2011/11/04

Euskarazko 8 komiki berri
2011/12/02

Social networks killed the RSS star?
2012/06/10