Irakurri beharrean, entzun
- (Elhuyar aldizkariko 2014ko apirileko zenbakian argitaratutako artikuluaren jatorrizko extended bertsioa)
Ahots-teknologiak berriki arte asko erabili ez badira, ez da izan beharrik ez zegoelako, baizik eta teknologia oraindik nahiko heldua eta aurreratua ez zegoelako. Beharrak eta aplikazio posibleak ugariak izan dira betidanik.
Erabilera posible horietatik burura lehenengo etortzen zaiguna gailu digitalekiko interakzioa da. Ordenagailu, telefono edo tabletari aginduak teklatuan idatziz edo saguaz klik eginez eman beharrean, erosoagoa eta azkarragoa izan daiteke, kasu askotan, ahoz esanda egitea. Eta makinaren emaitza jasotzeko ere, pantailan irakurri beharrean, maiz erosoagoa izan daiteke entzutea. Ahots bidezko interakzioaren adibide dira gailu mugikorretan gero eta gehiago ikusten diren Siri moduko elkarrizketa-agenteak (2012ko urtarrilean hitz egin genizuen horiei buruz).
Pertsonen arteko komunikazioan ere lagundu dezakete. Itzulpen automatikoarekin konbinatuta, ahots-teknologiekin ahots-itzultzaileak egin daitezke.
Beste aplikazio bat informazioaren kudeaketa da. Idatziz dagoen informazioa erraz eta azkar maneiatzen dute ordenagailuek, eta tresna oso baliagarriak egiten ahal dira, bilatzaileak esaterako. Baina informazioa audio-grabaketak direnean, makinak ez dira gai ulertzeko, eta transkribatu egin behar dira. Aldiz, ahots-teknologien bidez hizketa ulertzeko gai badira, makinek berek bihurtuko lukete ahotsa testu, eta audio-fitxategiak erraz indexatu ahal izango lirateke bilaketarako (horrela ari da, adibidez, BBC bere historia guztiko irratiko audio guztiak bilaketarako katalogatzen), edo filmak automatikoki azpititulatu.
Ahotsaren sorkuntza...
Horrelako gauzak egiteko, esan bezala, ahots teknologiak deritzen teknologiak erabiltzen dira. Eta mota ezberdin askotako teknologiak daude.
Ahots-sintesia da horietako bat, ingelesezko TTS (Text To Speech edo testutik hizketara) izenaz ere ezaguna. Teknologia horrek hizketa baten audioa sortzen du testu batetik, ahots sintetiko edo artifizialez, molde ahalik eta naturalean. Eta hori, neurri batean, nahiko lortua dago, intonazio neutro baterako behintzat. Bitxia bada ere, zientzia-fikziozko film zaharretan agertzen ziren robotak makina oso adimendunak ziren, eta ez zuten arazorik esaten zitzaiena ulertzeko; berek hitz egin, ordea, oso modu artifizial eta robotikoan (jakina) hitz egiten zuten. Baina errealitatean kontrakoa gertatu da: gaur egun nahiko ongi hitz egin dezakete makinek, ulertu, baina, ez hain ongi, eta adimendun izateko tarte handia falta da oraindik...
Ahots-sintesi emozioduna ere lantzen ari dira ikertzaileak, hau da, ahots sintetikoak haserrea, poza, harridura, pena eta horrelako emozioak ere adieraztea. Izan ere, kasu askotan ez da nahikoa gauzak intonazio neutroarekin esatea, adibidez, filmak-eta automatikoki bikoiztu nahi badira.
Sortzen den ahots sintetikoak naturala iduri dezan, benetako pertsonen grabaketa asko egin behar izaten dira, eta, hala, pertsona horren ahots bera duen hizketa lortzen da, benetako pertsona batek esandakoa dela ematen duena. Baina horrek badu arazo bat, ahots ezberdin asko behar direnean ez baitu balio (goian aipatutako filmen bikoizketarako, adibidez). Horregatik, ahotsen transformazioaren teknologia ere existitzen da, hau da, grabaketetan oinarritutako ahots sintetiko batek beste norbaitena dela eman dezan lortzeko teknologia. Hori erabiltzen da, adibidez, hitz egiteko gaitasuna galdu duen jendearentzat bere ahotsaren antza izango duen ahots-sintetizadoreak egiteko.
... eta ezagutza
Ahots teknologien beste familia handia kontrako norabidekoa da, hau da, ahotsaren ezagutzakoa. Hemen sartzen da, esate baterako, biometriarako erabiltzen den hizlariaren ahots bidezko identifikazioa. Hala ere, teknologia hau ahots baten ezaugarriak detektatzean eta horren bidez pertsona zein den jakin edo egiaztatzean datza soilik.
Zailagoa da esaten dena ezagutzea, hau da, benetako ahots ezagutza. Horregatik, ahotsaren ezagutzako sistemetan mota ezberdinetakoak daude, konpontzen duten problematikaren arabera, eta emaitzen kalitatea ere ezberdina dute. Adibidez, diktaketa-sistemak hizketa jarraia eta edozelakoa ezagutzeko pentsatuta daude. Hori lortzea oso zaila da eta hori dela eta, pertsona bakoitzaren hizkerara entrenatu behar izaten dira eta emaitzak ez dira hain onak ere.
Ahots ezagutzako beste sistema batzuk komandoen ezagutzakoak dira. Hauetan, ezagutu beharrekoa mugatua egoten da. Hauen adibideak dira call-centerak edota aipatutako elkarrizketa agenteak. Ezagutu beharrekoa unean uneko testuinguruaren araberakoa da (zenbakiak, aukera multzo batetik bat, gure agendako pertsonetako bat...), eta horregatik emaitza hobeak lor daitezke, hobeak ezagutu beharrekoaren aukera ezberdinak zenbat eta gutxiago izan.
Azkenik, edukien indexazio eta bilaketarako erabiltzen diren ezagutza teknologiak daude. Diarizazioa deritzonak, adibidez, audioko fitxategi baten dauden atal ezberdinak identifikatzeko balio du: noiz den elkarrizketa, noiz isilunea, noiz musika, noiz zarata… Horrela, ahots ezagutzailea zein zatiri aplikatu jakiten da, hizketarik ez dagoenean ezagutzailea pasatu eta zaborra indexatu beharrean. Hizlariaren identifikazioa ere interesgarria izaten da indexazio helburutarako. Eta ohiko ahots ezagutza ere erabiltzen da indexaziorako. Gainera, honelako erabileretan maiz ez du axola ezagutza perfektua ez izateak: sarri ez da transkribapen zehatza behar, bilaketarako hitz edo termino esanguratsuen eta errepikakorrenak harrapatzea nahikoa izan daiteke.
Euskarazko ahots-sintesia Elhuyar aldizkaria, Zientzia.net eta EITB.eus entzuteko!
Arestian esan dugu ahots-teknologiak gaur egun nahikoa aurreratuta daudela eta gero eta gehiago erabiltzen direla. Teknologia horiek, baina, hizkuntzaren araberakoak dira (beharbada hizlariaren detekzioaren salbuespenarekin), eta ez daude garapen-maila berean hizkuntza guztietarako. Beti bezala, teknologiok oso garatuta daude hizkuntza gutxi batzuetarako (betikoak: ingelesa, gaztelania, alemana, txinera...), eta gainerako gehienetarako askoz atzerago.
Garapen onena duten hizkuntza horien mailan ez badago ere, euskara ez da, zorionez, azkeneko bagoian doazen horietakoa. Urteak daramatzagu euskararentzako ahots-teknologiak lantzen. Eta lan horretan aitzindari eta erreferente EHUko Aholab ikerketa-taldea dugu. Aipatutako teknologia guztiak landu dituzte eta lantzen ari dira.
Aholabek euskararentzat aurreratuen daukan teknologia, jakina, ahots-sintesiarena da. Oso kalitate oneko ahots sintetiko neutroa lortzen dute, aplikazioetan erabiltzeko modukoa. Horregatik, Aholabekin elkarlanean, Elhuyarreko Hizkuntza eta Teknologia unitateak webguneak irakurri beharrean entzuteko teknologia garatu du ahots-sintesi bidez.
Izan ere, jada ez dugu soilik mahai gaineko ordenagailuetatik nabigatzean webean. Gero eta gehiago ibiltzen gara Interneten gure smartphone eta tabletetatik. Eta horietan, webguneak irakurtzeko baldintzak ez dira sarri oso egokiak: pantaila txikia da (batez ere, telefonoetan), mugimenduan joaten gara maiz (oinez, trenean, autobusean...) eta abar. Aldiz, horrelako gailuetan, oso ohituta gaude edukia (musika, podcast-ak...) entzungailuez entzuten. Horregatik, oso interesgarria iruditu zitzaigun webguneak entzun ahal izateko teknologia hori garatzea. Erabiltzailea ordenagailu edo gailu mugikorrean edukia irakurri ordez entzuten joan ahal izango da, bitartean beste zerbait egiten duelarik.
Oraingoz, Elhuyar aldizkariaren webgunean, Zientzia.net-en eta EITB.eus-en jarri dugu teknologia hori. Bertako eduki batean gaudela (artikulu bat, erreportaje bat...), barra bat agertuko zaigu, eta han “play” itxurako botoi tipiko bat. Hori sakatuta, artikulua entzuten hasiko gara. Entzuketa esaldiz esaldi egiten da, eta entzuten ari garen esaldia markatuta agertzen da. Era berean, entzuketan nabigatu ahal izateko botoiak ere badaude (aurreko edo ondoko esaldira, aurreko edo ondoko paragrafora, edo nahi dugun tokira joateko). Gainera, ahotsa (emakumezko eta gizonezko baten artean), bolumena zein abiadura alda ditzakegu. Horrez gain, aldizkariko zenbaki batean bagaude, entzuteko botoia sakatuta, zenbaki horretako artikulu guztiak entzun ahal izango ditugu bata bestearen atzetik; hori oso interesgarria izan daiteke kotxean gidatzen-edo bagoaz bidaia luze samar batean, irratia entzun beharrean aldizkari osoa entzun baitezakegu. Azkenik, elkarrizketetan, aukeratutakoa ez beste ahots batekin irakurtzen dizkigu galderak, galderak eta erantzunak bereiz ditzagun. Eta hori guztia, HTML5 teknologia estandarra erabiliz egin da (HTML5ez 2010eko otsailean hitz egin genizuen).
Aukera ederra, beraz, euskarazko ahots-teknologiak ezagutu eta baliatzen hasteko. Probatu, eta ikusi!