
Studenti razvijaju program koji glas pretvara u tekst

Već više od dvadeset godina na internetu postoji dežurni lektor koji vam pomaže ispraviti mnoge pogreške u vašim tekstovima.
Odaziva se na ime Hascheck (izgovara se 'hašek'; http://hascheck.tel.fer.hr/), a iza njega stoje dvije osobe, profesori s Fakulteta elektrotehnike i računarstva Sveučilišta u Zagreba Šandor Dembitz, autor jezgrenog dijela sustava, i Gordan Gledec, koji je izradio mrežno sučelje. U poslu se oslanjaju na svoje studente, kojih je toliko da bi ih u okviru ovoga članka teško bilo sve navesti poimence. Projekt je pokrenut najprije na FER-u, ali prvog dana proljeća 1994. postao je javno dostupan. Od tada je mnogo puta preinačen kako bi bio što bolji za korisnike. Hascheckov rječnik s početnih je sto tisuća različnica hrvatskoga općejezičnog fonda s godinama narastao na 2,1 milijun različnica, od kojih 53 posto pripada hrvatskomu općejezičnom fondu, 44 posto hrvatskomu posebnojezičnom, većinom imeničkom fondu, te oko 3,5 posto engleskomu općejezičnom fondu.
– Svaki dan unosimo nove riječi, nove pojmove, jer se jezik brzo mijenja. Prije desetak godina nije bilo riječi kao što su 'tvitanje' i 'lajkanje', koje se danas upotrebljavaju u svakodnevnom govoru. To zahtijeva da se za program brinemo svaki dan kako bi korisnici bili zadovoljni uslugom – rekao nam je profesor Dembitz.
Besplatno za male U dvadeset godina postojanja Hascheck je posjetilo više od trideset posto svih hrvatskih računala spojenih na internet – više od 620 tisuća korisnika bar je jedanput posjetilo stranicu i provjerilo svoj tekst – obradivši do sada korpus od više od 10 milijuna autorskih kartica teksta. Glavna Hascheckova stranica danas bilježi od tri do četiri tisuće posjeta na dan. U prosjeku se na dan obradi oko osam tisuća kartica teksta. No najvažnije je što je stranica besplatna za uporabu malim korisnicima.
– Pratimo velike korisnike i takve upozoravamo na to da se koriste našim programom u profesionalne svrhe i da bi bilo u redu da plate tu uporabu. Nije riječ o velikom novcu, nego o naknadi koja bi nam pomogla da stranicu i dalje održavamo i unapređujemo. Za sada imamo jednog sponzora, Agrokor, koji donacijom pokriva pola godišnjih troškova, a ostatak namirujemo iz ugovora s profesionalnim korisnicima – objasnio je Dembitz.
Iako na programu najviše radi Dembitz, malo manje Gledec, što je i razumljivo zbog prije opisane podjele posla, studenti se uključuju putem projekata u sklopu izbornih predmeta diplomskog studija. Njihovi projekti poslije se provjeravaju i ako doista mogu unaprijediti Hascheck, uvode se u program.
– To je vrlo ozbiljan projekt i mi mu tako pristupamo. Studenti su nam korisni pomoćnici, ali mi još držimo uzde programa u svojim rukama. Studentske ideje vrlo su dobre i sve ih više zanima rad na takvim projektima nego klasično učenje. Tako ih pripremamo za ono što ih čeka nakon što završe fakultet – dodao je Dembitz.
Nedostaju sredstva Studenti su osmislili HascheckVoice (http://hascheck.tel.fer.hr/voice/), koji tekst pretvara u govor, što je vrlo korisna aplikacija. Dembitz nas je upoznao s još jednim zanimljivijim projektom koji se nedavno proveo u sklopu njegova izbornog predmeta.
– Studenti su u samo šest mjeseci razvili program koji pretvara govor u tekst, s time da je vokabular ograničen na petnaest tisuća najčešćih riječi u hrvatskome. To je put kojim bi se trebao razvijati Hascheck, no to stoji. Ipak, studenti su prepoznali u kojem smjeru treba ići, samo kad bi se našla financijska sredstva da se taj projekt napravi do kraja. U nekoliko godina mogli bismo imati program koji bi diktafonske i druge fonogramske zapise pretvarao u tekstni oblik. To bi pomoglo profesorima, studentima, novinarima te mnogim drugim profesijama – istaknuo je.
Hascheck su primijetili francuski stručnjaci i ponudili suradnju u koju bi unijeli svoje respektabilno znanje i iskustvo, a tim profesora Dembitza dao bi svoje baze podataka. Riječ je o visokokvalitetnome strojnom prevođenju, što je najteže napraviti. Dembitz ističe da je hrvatski jezik pri dnu rangiranja kad je riječ o obradi prirodnih jezika.
– Hrvatski je u tehnološkome smislu jedan od najzapuštenijih europskih jezika, a jezik se u doba interneta brani tehnologijom. Za to bi se trebala zauzeti država, a ne da problem gura pod tepih – požalio se Dembitz.
Kaže da je velik problem financiranje jer Sveučilište i Ministarstvo nemaju sluha za njegove prijedloge. Požalio nam se da je na nedavnom natječaju Sveučilišta tražio server vrijedan osamdeset tisuća kuna, ali odbijen je jer je to, navodno, previše novca.
– Nije riječ o velikom novcu, cijeli program zahtijeva 50-ak tisuća kuna na godinu. Zabrinjava nepostojanje sluha mjerodavnih. Tim se programom radi i na promidžbi jezika i na njegovu očuvanju – rekao nam je, napomenuvši da se Hascheckova usluga do sada upotrebljavala u 129 IP domena (zemalja) diljem svijeta, dakle da je globalna.
Moglo bi se i zaraditi S obzirom na to da se bliži odlazak u mirovinu autora programa, nameće se pitanje što će biti s Hascheckom nakon toga. Profesor je nedavno ponudio suradnju Institutu za hrvatski jezik i jezikoslovlje, no na e-poruku čak nije bilo ni odgovora. Profesor Dembitz razmatra razne mogućnosti.
– Najradije bih da brigu za program preuzme država putem Instituta jer skrb o pismenosti zavrjeđuje biti javna. Međutim, ako to ne žele, program ćemo ponuditi tržištu. Program ima velik potencijal u naplati usluge po simboličnim cijenama, ali i reklamnom prostoru na stranici. Velike su mogućnosti njegova unapređivanja, ali i da budući vlasnik zaradi na njemu – rekao je Dembitz.
Izračunao je da je Hascheck do sada odradio više od milijun sati ljudskog lektoriranja. Kolika je to ušteda u radnom vremenu autora tekstova odnosno novcu, svatko sâm može lako procijeniti. Iako Hascheck nije program koji potpuno zamjenjuje lektore, znatno im olakšava i ubrzava posao. Osim zatipaka (tipfelera) i pravopisnih pogrešaka također upozorava na najčešće gramatičke odnosno stilske pogreške, dakle i kontekstno provjerava obrađivani tekst. U kontekstnom dijelu provjere još je mnogo prostora za unapređivanje pa se Dembitz nada da će se naći neki novi studenti da ga poboljšaju i u tom smislu.