Programsko orodje in učne množice za označevanje slovenskih besedil
Temelj za strojno procesiranje jezika so orodja, ki v besedila pripišejo jezikovne oziroma jezikoslovne informacije: s strojnimi postopki razdelimo besedilo na pojavnice in povedi, pripišemo besedam osnovne oblike, besedno vrsto in oblikoskladenjske značilnosti, na višji ravni pa tudi informacije o skladenjskih razmerjih, udeleženskih vlogah v povedi in podobno. Osnovne tehnologije za ta orodja se še vedno spreminjajo: v zadnjem času so najuspešnejše globoke nevronske mreže, ki jih še presegajo veliki vnaprej naučeni globoki jezikovni modeli za kontekstne vektorske vložitve. V projektu bomo obstoječa orodja za označevanje slovenščine na naštetih ravneh nadgradili in jih povezali v odprtokodno orodje, ki bo označevanje povezalo v tekoč označevalni cevovod.
Razvoj označevalnih orodij poteka s pomočjo učnih množic, v katerih so korpusnim besedilom ročno pripisane takšne vrste informacije, kot naj bi jih v naslednjem koraku pripisoval program. Za slovenščino je na voljo učni korpus ssj500k, ki trenutno obsega 500.000 besed. Ročno označen je na ravni tokenizacije, segmentacije, oblikoskladenjskih oznak in lem. Približno polovica korpusa je označena na ravni odvisnostne skladnje po sistemih JOS in Universal Dependencies, imenskih entitet in glagolskih besednih zvez, približno četrtina pa na ravni udeleženskih vlog. V projektu bomo učni korpus povečali na 1.000.000 besed, ročno bomo označili dodatna korpusna besedila ter dodali tudi označevanje koreferenc in relacij, ki so pomembne za procesiranje jezika na semantični ravni.
Poleg izčrpnih in natančnih jezikoslovnih oznak zahteva razvoj metod za razumevanje naravnega jezika tudi vrsto zahtevnih evalvacijskih nalog, ki spodbujajo razvoj novih pristopov in primerjavo z obstoječimi metodami. V svetu sta se za angleščino uveljavila nabora evalvacijskih nalog GLUE (General Language Understanding Evaluation) in še zahtevnejši SuperGLUE. Tega sestavljajo naloge s področja logičnega sklepanja iz podanih besedil, iskanja odgovorov na vprašanja, razdvoumljanja pomena in koreferenčnosti. Zbirko nalog SuperGLUE bomo v obsegu 1.000.000 besed prevedli in priredili za slovenščino, ki bo tako postala eden redkih jezikov s tako zbirko.