Govorne tehnologije

Delovni sklop 2

V drugem sklopu bomo izdelali govorno bazo, ki predstavlja osnovo za razvoj podpornih orodij za razpoznavalnik govora in tudi sam razpoznavalnik govora – v okviru projekta bodo nastali en splošni in dva specializirana razpoznavalnika govora, ki bodo kot končni rezultat tega sklopa v odprtem dostopu na voljo uporabnikom, skupaj z opisi postopka njihove izgradnje.

Predvideni učinki ali kazalniki

  • Izdelali bomo govorno bazo, ki je ključna za razvoj razpoznavalnika tekočega govora v slovenščini.
  • Razvili bomo podporna orodja, ki so ključna za izdelavo razpoznavalnika govora in njegovo uporabo v praksi: sintaktični normalizator, akustični normalizator, orodje za pretvorbo iz grafemov v foneme in orodje za postavljanje ločil v surovi tekst.
  • Razvili bomo en splošni in dva specializirana razpoznavalnika govora, ki bodo uporabnikom omogočali brezplačno izdelavo transkripcije za naloženo zvočno datoteko, na voljo pa bodo tudi postopki za njihovo izdelavo.

Govorna baza

Govorna baza, tj. zbirka posnetkov govora, je osnova za razvoj razpoznavalnika govora. V okviru projekta bomo izdelali govorno bazo, ki bo obsegala 1000 ur govora v slovenščini, in sicer tako branega kot prosto govorjenega, pripravljenega in nepripravljenega, nenazadnje pa tudi brani govor enega govorca, ki se bo lahko uporabil tudi za razvoj sinteze govora.

Opisana jezikovna baza govorjenih besedil, pri izdelavi katere bo sodelovalo okoli 1800 govorcev, bo javno dostopna pod pogoji prostih licenc in bo na voljo za nekomercialen in komercialen razvoj tehnologij, na primer za govorno upravljanje naprav, pogovorne agente, pametne asistente (Amazon Alexa, Google Assistant in Apple Siri), avtomatsko podnaslavljanje video vsebin in avtomatsko prevajanje govorjenih vsebin. Javno dostopne bodo tudi vsa programska koda in zbirke podatkov, ki bodo nastale med projektom, in vsa razvita orodja. Preizkusili in uporabljali jih bodo lahko posamezniki, raziskovalne in izobraževalne institucije, neprofitne organizacije, državni organi, organizacije z javnimi pooblastili in gospodarske družbe v Sloveniji in tujini.

Izdelava načrtovane govorne baze bo pripomogla k boljšemu položaju slovenščine v informacijsko-komunikacijskih tehnologijah, ki omogočajo govorno komunikacijo s stroji. Le tako se bodo lahko njegovi uporabniki vključevali v najsodobnejše načine komunikacije in ustvarjalno sodelovali v govornih situacijah prihodnosti na področju dela in preživljanja prostega časa.

Podporna orodja

V okviru projekta bomo izdelali tudi štiri podporna orodja za izdelavo splošnih ali domensko specializiranih razpoznavalnikov, in sicer akustični normalizator, sintaktični normalizator, punktuator in fonemizator.

Akustični normalizator služi predobdelavi zvočnega signala z namenom odstranjevanja aditivnega šuma, tj. zvočnih elementov, ki ne predstavljajo govora in so za učenje razpoznavalnika moteči. Akustični normalizator lahko pripomore k večji robustnosti razpoznavalnika, saj poskrbi za to, da je razpoznavalnik manj odvisen od čistosti govornega signala. Izdelan bo z uporabo pristopov, ki temeljijo na postopkih digitalne obdelave signalov oziroma globokih nevronskih mrežah. Za učno množico bo uporabljen govorni korpus, ki bo izdelan v tem sklopu projekta.

Sintaktični normalizator se lahko uporablja tako v predobdelavi kot postobdelavi besedila. Sintaktična normalizacija je v splošnem proces, ki besedilo preoblikuje v enotno kanonično obliko, ki je ta predhodno morda ni imel. V okviru razpoznavalnikov so na primer števila, datumi, akronimi in okrajšave primeri nestandardnih besed, katerih izgovarjava je odvisna od okoliškega konteksta. Transkripcija baze govorjenega jezika bo predvidoma v obliki, kjer so števila in datumi izpisani z besedo in v njih ne bo akronimov in okrajšav. To pomeni, da bo razpoznavalnik tak rezultat tudi vračal. Korpus Gigafida 2.0, ki je predvideni vir za jezikovni model, bo treba predobdelati, da bo uglašen z rezultati razpoznavalnika. Odvisno od domene razpoznavalnika bo normalizator lahko uporaben tudi v postobdelavi, kjer bo na primer lahko zagotovil pretvorbo števil in datumov, izpisanih z besedo, v zapis s števili. Sintaktični normalizator bo predvidoma narejen z uporabo pravil oziroma globokih nevronskih mrež ali kombinacije teh dveh. Za učno množico bo predvidoma uporabljen prečiščen korpus Gigafida 2.0.

Punktuator je orodje za postavljanje osnovnih ločil v besedilo, ki ga vrača razpoznavalnik. Tipični razpoznavalnik deluje tako, da iz akustičnega signala razpoznava foneme in iz njih sestavlja besede. Vendar besed ne zna sestavljati v večje enote, kot so povedi in stavki. Semantična vrednost tako pridobljenih transkripcij je zato manjša. Punktuator lahko razpoznane besede obogati z osnovnimi ločili, kot so vejice, pike, vprašaji in klicaji, in tako pripomore k lažji pomenski obravnavi transkripcij. Punktuator bo predvidoma izdelan z uporabo globokih nevronskih mrež. Za učno množico bo predvidoma uporabljen prečiščen korpus Gigafida 2.0.

Fonemizator je orodje za pretvorbo grafemskega zapisa v pripadajoči fonemski zapis. V procesu razpoznave lahko služi kot metoda za dodajanje manjkajočih besed v slovar izgovorjav. Pri tipičnem razpoznavalniku je slovar izgovorjav temeljnega pomena, saj razpoznavalnik prepozna le besede, ki se v slovarju nahajajo. Ker pri razpoznavi pogosto naletimo na besede, ki v slovarju še niso zapisane, moramo imeti postopek, ki omogoča njihovo dodajanje, bodisi ročno bodisi povsem avtomatizirano. Fonemizator bo predvidoma izdelan s kombinacijo hevrističnih pravil oziroma modela, naučenega z uporabo nevronskih mrež.

Splošni in dva specializirana razpoznavalnika govora

Poleg govorne baze bodo najpomembnejši končni rezultat tega sklopa konkretni primeri razpoznavalnikov, in sicer eden za splošno uporabo in dva za specifični domeni. Ta orodja bodo omogočala komuniciranje človeka s stroji in drugimi oblikami umetne inteligence, in to v slovenščini. Na voljo pa bo tudi opis postopka njihove izdelave.

Splošni razpoznavalnik bo narejen tako, da ga bo mogoče postopno izboljševati skupaj z dopolnjevanjem in izboljševanjem govorne baze, podpornih orodij in drugih učnih virov.   Preizkusili bomo različne načine izdelave razpoznavalnika in različne nastavitve hiperparametrov. Preverili bomo, kakšen vpliv na robustnost razpoznavalnika in razpoznavo imata akustična predobdelava signala, s katero zagotovimo čistejši signal, in bogatenje učne množice z dodajanjem šuma, pri čemer se nevronska mreža nauči prepoznavati šum. Danes so priljubljeni tudi t. i. end-to-end pristopi, ki razpoznavalnika ne gradijo večstopenjsko, tj. z ločenim akustičnim modelom, jezikovnim modelom in modelom izgovorjave, temveč poskušajo zgraditi enoten model, ki zajema vse v enem. Čeprav ti pristopi praviloma zahtevajo bistveno obsežnejše učne množice, se že pojavljajo načini, ki te omejitve presegajo. S tem se postavlja vprašanje, kako velika učna množica bo v prihodnje zares potrebna za izdelavo end-to-end razpoznavalnika, ki bo po kakovosti primerljiv ali celo boljši od klasično zgrajenih kompozitnih razpoznavalnikov.

Poleg splošnega robustnega razpoznavalnika bomo v okviru projekta zgradili tudi dva domensko specifična razpoznavalnika in izgradnjo slednjih tudi demonstrirali. Razpoznavalnike za omejene domene je mogoče zgraditi tako, da pripravimo posebno govorno bazo, ki je specializirana za izbrano domeno, in nadaljujemo z uporabo enakega pristopa, kot ga uporabljamo pri gradnji splošnih razpoznavalnikov. Druga možnost pa je, da za izhodišče uporabimo akustični model splošnega razpoznavalnika, ki vsebuje splošne modele glasov, s poljubnimi besedami, za potrebe ožje domene pa prilagodimo jezikovni model razpoznavalnika in modele izgovarjav domensko specifičnih besed. Prvi pristop je z vidika zagotavljanja govornih virov zahtevnejši, saj moramo za vsako posamezno domeno pridobiti dodatno, dovolj obsežno specializirano govorno bazo. Ravno zato bomo v okviru projekta uporabili drugi pristop, kjer bomo kot osnovo uporabili drugo različico splošnega razpoznavalnika, ki ga bomo gradili v okviru predhodnih aktivnosti. Postopek bo prikazan na dveh izbranih domenah – predvidoma na primeru upravljanja pametnega doma in na primeru govornega asistenta, ki bo omogočal govorno opisovanje in poizvedovanje na podlagi slik obrazov ljudi. Vsi rezultati tega sklopa projekta bodo na voljo na portalu, ki bo povezoval rešitve projekta. S pogledom naprej pa bomo pripravili tudi načrt za nadaljnje izboljševanje splošne razpoznave slovenskega jezika s poudarkom na področju izobraževanja (npr. prevajanje predavanj v realnem času).

Izvedite več o drugih projektnih sklopih

Semantični viri in tehnologije

Semantični viri in tehnologije

Strojno prevajanje

Strojno prevajanje

Terminološki portal

Terminološki portal

© 2020. Vse pravice pridržane