Razdvoumljanje in vektorske predstavitve besed
Trenutno najuspešnejši strojni pristop k obdelavi in razumevanju naravnega jezika so globoke nevronske mreže. Te za svoje delovanje potrebujejo predstavitev besedil v številski obliki, ki besede preslikajo v vektorsko obliko tako, da se semantična podobnost besed prenese v razdalje med vektorji. Vektorske vložitve so danes osnovni predpogoj za uspešno procesiranje naravnega jezika in so nujno potrebne za prepoznavanje in generiranje govora, za povzemanje besedil, odgovarjanje na vprašanja, razdvoumljanje pomenov, razreševanje koreferenčnosti, strojno prevajanje in luščenje terminologije. Nekaj osnovnih vektorskih vložitev za slovenščino že obstaja, npr. samostojne vložitve tipa word2vec, fastText in ELMo ter večjezične tipa BERT in XLM-R. Raziskave kažejo, da je za kakovostne vložitve potrebna kar največja in najbolj kakovostna zbirka besedil, zato bomo v okviru projekta na osnovi obstoječih korpusov Gigafida 2.0, KAS, FRENK in v projektu zbranih besedilnih virov zgradili samostojne kontekstne vložitve tipa BERT in ELMo.
Razdvoumljanje pomenov besed je proces, ki določi, kateri pomen večpomenske besede je uporabljen v določeni komunikacijski situaciji, npr. 'klop' kot lesen predmet za sedenje ali kot zajedavec). Za določanje vseh pomenov neke besede, ki je prvi korak, bomo primarno uporabili slovenski WordNet, kot pomožni vir pa različne slovarje, npr. digitalno slovarsko bazo, SSKJ. Pri razdvoumljanju bomo izhajali iz več različic Leskovega algoritma, boljše rezultate pa predvidevamo z uporabo globokih nevronskih mrež. Preizkusili bomo več arhitektur globokih nevronskih mrež in jih kombinirali z različnimi vektorskimi vložitvami, primernimi za morfološko bogate jezike, kot je slovenščina. Za potrebe učenja razdvoumljanja bomo v sodelovanju z delovnim sklopom 1 zgradili podatkovno množico, kjer bomo s pomočjo človeških označevalcev posameznim rabam različnih besed pripisali pomen iz danega nabora. Na tej podatkovni množici bomo naučili modele strojnega učenja. Kot končno izboljšavo sistema za razdvoumljanje bomo uporabili semantično mrežo iz tega delovnega sklopa. Orodje bomo ovrednotili na neuporabljenem delu zbrane podatkovne množice. Potencialne napake pri napovedih pomenov bomo analizirali in po potrebi učno množico dopolnili z dodatnimi primeri.