Strojno prevajanje

Delovni sklop 4

V četrtem sklopu bomo razvili strojni prevajalnik za jezikovna para angleščina-slovenščina in slovenščina-angleščina. Na portalu RSDO bo na voljo kot spletna aplikacija, kot del cevovoda za govorno prevajanje in kot programska koda pod odprtokodno licenco, ki bo omogočala tudi komercialno rabo. Poleg tega je predvidena še izdelava korpusa prevodov v velikosti najmanj 3 milijonov prevodnih enot.

Predvideni učinki ali kazalniki

  • Povečali bomo korpus dvojezičnih poravnanih besedil za jezikovna para AN-SL in SL-AN za vsaj 3 milijone prevodnih enot.
  • Razvili bomo podporna orodja, ki bodo olajšala postopek zbiranja in obdelave besedil ter bodo na voljo v odprtem dostopu, pa tudi orodja za določitev evalvacijske metodologije, ki bo omogočala celovit vpogled v kakovost referenčnega prevajalnika.
  • Razvili bomo model strojnega prevajalnika za jezikovni kombinaciji AN-SL in SL-AN, ki bo nadgradil obstoječi strojni prevajalnik, razvit na Institutu "Jožef Stefan", in ga objavili na v za to razvitem portalu, kjer bo na voljo uporabnikom.

Zbiranje besedil

Bi nam radi pomagali pri zbiranju besedil in prispevali k razvoju slovenščine v digitalnem okolju?

Preberite več o tem, kako lahko prispevate, na strani z odgovori na pogosta vprašanja.

Besedila za korpus prevodov

Korpus dvojezičnih, tj. slovenskih in angleških besedil, ki je trenutno na voljo, sestoji iz približno 34 milijonov poravnanih stavkov iz različnih prosto dostopnih korpusov. V tem sklopu projekta bomo to zbirko besedil povečali za vsaj 3 milijone. Besedila in njihove prevode bomo zbirali tako pri javnih kot zasebnih podjetjih, ki pri prevajanju uporabljajo orodja za računalniško podprto prevajanje, kar pomeni, da so besedila že ustrezno segmentirana in pripravljena za uporabo v procesu učenja strojnega prevajalnika. Pri naboru besedil se bomo osredotočili zlasti na domene, ki v obstoječi zbirki še niso zastopane.

Podporna orodja in metodologija za evalvacijo strojnega prevajalnika

Predvsem z vidika zbiranja in obdelave besedil za učenje strojnega prevajalnika bo potrebno razviti nekatera orodja. V okviru projekta bomo tako izdelali orodja za anonimizacijo osebnih podatkov, za (pol)avtomatsko poravnavo dvojezičnih besedil in za ekstrakcijo primernih besedil iz večjih zbirk podatkov.

Poleg podpornih orodij bomo razvili tudi metodologijo za vrednotenje strojnega prevajalnika. V projektu bo primarna metoda za ugotavljanje kakovosti prevajalnika, ki se kaže v kakovosti njegovih strojnih prevodov, avtomatska metrika BLEU. Ker pa ta ne daje vedno celostnega vpogleda v kakovost prevajalnika, bomo razvili dodatno metodo evalviranja – takšno, ki bo osnovana na ročnem pregledu strojnih prevodov. Ročno evalvacijo bodo izvajali študenti prevajalstva druge stopnje, ki bodo pred začetkom evalvacije ustrezno usposobljeni. Rezultate evalvacij bo pregledal koordinator, ki bo opravil tudi analizo rezultatov.

Pred razvojem strojnega prevajalnika bomo ponovili evalvacijo referenčnega strojnega prevajalnika, in sicer bo to strojni prevajalnik, razvit na Institutu "Jožef Stefan" v okviru projekta TraMOOC, ki je bil financiran iz programa Evropske unije Horizon 2020 in je na voljo v odprtem dostopu na spletnem mestu www.translexy.com.

Novi modeli nevronskega strojnega prevajalnika

Danes se na področju strojnega prevajanja najbolje izkažejo nevronski strojni prevajalniki (NMT), tj. prevajalniki, ki so naučeni na osnovi uporabe globokih nevronskih mrež. Obstaja več prosto dostopnih ogrodij za učenje nevronskega strojnega prevajalnika. Nekatera bomo preizkusili in eno izbrali za nadaljnje delo. Testirali bomo različne nastavitve in prilagoditve izbranega ogrodja z namenom doseganja čim boljših rezultatov. Tako bo vsak naučen model    prevajalnika ovrednoten z izbranimi avtomatskimi metrikami in z razvito metodologijo za ročno evalvacijo.

Končna različica novega nevronskega strojnega prevajalnika za jezikovna para SL-AN in AN-SL bo uporabnikom na voljo na javno dostopnem spletnem portalu, ki ga bomo izdelali posebej za ta namen. Uporabnik bo lahko nanj naložil besedilo v slovenskem ali angleškem jeziku, ki ga želi prevesti v drug jezik te kombinacije. Nato bo sprožil prevajanje in v nekaj minutah si bo prevod lahko prenesel na svoj računalnik ali pa ga bo naročil na svoj elektronski naslov.

V okviru projekta bomo pripravili še dolgoročni načrt za razvoj strojnega prevajalnika za nesprotno (angl. offline) prevajanje predavanj iz slovenskega v angleški jezik.

Izvedite več o drugih projektnih sklopih

Terminološki portal

Terminološki portal

Vzdrževanje infrastrukturnega centra za jezikovne vire in tehnologije

Vzdrževanje infrastrukturnega centra za jezikovne vire in tehnologije

Jezikovni viri

Jezikovni viri

© 2020. Vse pravice pridržane