Jezikovni viri

Delovni sklop 1

V prvem sklopu bomo nadgradili slovenske besedilne korpuse in leksikon besednih oblik. Prenovili bomo učne množice in postopke za strojno označevanje sodobne slovenščine. Rezultat bodo osveženi in povečani jezikovni viri, ki bodo na voljo tako uporabniški skupnosti kot za strojno rabo. Z razvitimi postopki in orodji bo posodabljanje slovenskih korpusov v prihodnosti hitrejše in preprostejše.

Predvideni učinki ali kazalniki

  • Nadgradili bomo jezikovne vire, ki so pomembni za razvoj slovenskih jezikovnih tehnologij, vendar so trenutno pomanjkljivo jezikoslovno označeni ali premajhni za doseganje dobrih rezultatov.
  • Vsebinsko bomo nadgradili korpuse, ki so pomembni za jezikovni opis in jezikoslovne raziskave, in jih uporabnikom dali na voljo v korpusnih konkordančnikih.
  • Razvili bomo celovito infrastrukturo za učinkovit in kontinuiran nadaljnji razvoj temeljnih jezikovnih virov za slovenščino (načrte, delotoke zbiranja besedil, označevalne smernice, predvidene formate in podobno).
  • Razvili bomo nova programska orodja za strojno označevanje in podporo ročnemu označevanju slovenskih besedil na različnih nivojih.

Programsko orodje in učne množice za označevanje slovenskih besedil

Temelj za strojno procesiranje jezika so orodja, ki v besedila pripišejo jezikovne oziroma jezikoslovne informacije: s strojnimi postopki razdelimo besedilo na pojavnice in povedi, pripišemo besedam osnovne oblike, besedno vrsto in oblikoskladenjske značilnosti, na višji ravni pa tudi informacije o skladenjskih razmerjih, udeleženskih vlogah v povedi in podobno. Osnovne tehnologije za ta orodja se še vedno spreminjajo: v zadnjem času so najuspešnejše globoke nevronske mreže, ki jih še presegajo veliki vnaprej naučeni globoki jezikovni modeli za kontekstne vektorske vložitve. V projektu bomo obstoječa orodja za označevanje slovenščine na naštetih ravneh nadgradili in jih povezali v odprtokodno orodje, ki bo označevanje povezalo v tekoč označevalni cevovod.

Razvoj označevalnih orodij poteka s pomočjo učnih množic, v katerih so korpusnim besedilom ročno pripisane takšne vrste informacije, kot naj bi jih v naslednjem koraku pripisoval program. Za slovenščino je na voljo učni korpus ssj500k, ki trenutno obsega 500.000 besed. Ročno označen je na ravni tokenizacije, segmentacije, oblikoskladenjskih oznak in lem. Približno polovica korpusa je označena na ravni odvisnostne skladnje po sistemih JOS in Universal Dependencies, imenskih entitet in glagolskih besednih zvez, približno četrtina pa na ravni udeleženskih vlog. V projektu bomo učni korpus povečali na 1.000.000 besed, ročno bomo označili dodatna korpusna besedila ter dodali tudi označevanje koreferenc in relacij, ki so pomembne za procesiranje jezika na semantični ravni.

Poleg izčrpnih in natančnih jezikoslovnih oznak zahteva razvoj metod za razumevanje naravnega jezika tudi vrsto zahtevnih evalvacijskih nalog, ki spodbujajo razvoj novih pristopov in primerjavo z obstoječimi metodami. V svetu sta se za angleščino uveljavila nabora evalvacijskih nalog GLUE (General Language Understanding Evaluation) in še zahtevnejši SuperGLUE. Tega sestavljajo naloge s področja logičnega sklepanja iz podanih besedil, iskanja odgovorov na vprašanja, razdvoumljanja pomena in koreferenčnosti. Zbirko nalog SuperGLUE bomo v obsegu 1.000.000 besed prevedli in priredili za slovenščino, ki bo tako postala eden redkih jezikov s tako zbirko.

Leksikon besednih oblik Sloleks

Leksikon besednih oblik Sloleks je odprto dostopna zbirka oblikoslovnih in naglasnih podatkov za slovenščino. V trenutni različici prinaša podatke za cca. 100.000 besed: ročno urejene besedne oblike, strojno pripisane naglase in fonetični zapis. Leksikon vsebuje tudi informacije o oblikoslovni variantnosti, pogostosti oblik v referenčnem korpusu Gigafida 2.0 in avtomatsko generirane posnetke izgovorjave. Tako kot že omenjene učne množice je tudi Sloleks temeljni jezikovni vir za strojno procesiranje slovenskega jezika, pomemben pa je tudi za jezikovni opis. V projektu bomo zato zagotovili več pomembnih izboljšav, v prvi vrsti ročni pregled strojno pripisanih naglasnih informacij. Na drugi strani bomo poskrbeli za lažje in učinkovito povečevanje leksikona: razvili bomo orodje, ki iz izbranih virov uvozi avtomatsko pripravljene podatke in v uporabniško prijaznem vmesniku omogoči njihov hiter ročni jezikoslovni pregled. Novo orodje bomo preizkusili za širitev leksikona, ki bi ga radi povečali s podatki za vsaj 100.000 novih besed.

Referenčni korpusi Gigafida, Janes in GOS

Besedilni korpus Gigafida vključuje standardni jezik (npr. časopise, revije, strokovno in leposlovno literaturo), Janes uporabniške spletne vsebine (npr. forumske zapise, tvite, novičarske komentarje) in GOS govorjeno slovenščino (npr. oddaje, predavanja, pogovore). Korpusi predstavljajo osnovo za jezikovni opis, predpis, priročnike, jezikovne tehnologije in postopke vseh vrst. V projektu želimo poskrbeti za njihovo dolgoročno osveževanje, pri čemer bomo upoštevali izkušnje deležnikov, ki korpuse uporabljajo za razvoj izdelkov, in uporabniških skupin, ki korpuse uporabljajo za poklicne namene. Zagotovili bomo infrastrukturo, ki bo omogočala kontinuirano nadgrajevanje korpusov: naslovili bomo pravna vprašanja glede pridobivanja besedil, vzpostavili spletišče z informacijami in repozitorijem za besedilodajalce, opredelili protokole zbiranja in procesiranja pridobljenih besedil. Ker ima procesiranje nestandardnega jezika določene specifike, bomo v projektu zagotovili učno množico za strojno označevanje uporabniških spletnih vsebin. Tudi pri načrtovanju korpusne vsebine se bomo posebej posvetili vprašanju opredeljevanja standardnosti besedil in s tem povezane vključitve slovenskega zamejstva.

Korpusa usvajanja slovenščine Šolar in KOST ter korpusa parlamentarnih razprav

Poleg referenčnih v projektu nadgrajujemo tudi specializirane korpuse: korpus šolskih pisnih izdelkov Šolar, korpus usvajanja slovenščine KOST in korpusa slovenskih parlamentarnih razprav (siParl in SlovParl). Ti korpusi ponujajo pomemben uvid v jezikovno rabo določenega tipa, posebni pa so tudi zato, ker zahtevajo dodatne korake pri pripravi korpusnega gradiva: korpusa Šolar in KOST vsebujeta informacije o učiteljskih popravkih jezikovnih napak, korpusa parlamentarnih razprav pa metapodatke o govornikih, tipologijo sej, klasifikacijo točk dnevnega reda, strukturne in uredniške anotacije. Da bi s pripravo in nadgradnjo korpusov lahko učinkovito nadaljevali, je treba vzpostaviti protokole za kontinuirano zbiranje in procesiranje korpusnega gradiva, razvili pa bomo tudi nova orodja: na eni strani za (pol)avtomatsko označevanje slovenskih parlamentarnih razprav in na drugi za ročno označevanje in kategoriziranje jezikovnih popravkov. Nova orodja bodo odprto dostopna za nadaljnjo rabo, že med projektom pa jih bomo uporabili za izboljšavo in dopolnitev obstoječih korpusov.

Metakorpus izbranih slovenskih korpusov

Slovenski korpusi so za analizo dostopni v različnih konkordančnikih, tj. programih, s katerimi lahko pregledujemo korpusna besedila in vanje pripisane jezikovne informacije. Trenutno so korpusi dostopni ločeno: uporabniki lahko iščejo informacije po vsakem korpusu posebej, če jih zanima primerjava rezultatov, pa morajo informacije ročno združevati, kar je zamudno in lahko vodi tudi do napak pri analizi. Različni korpusi imajo tipično različne metapodatke in so lahko tudi označeni po različnih jezikoslovnih ravneh, kar dodatno otežuje iskanje po različnih korpusih. V projektu bomo zato naredili pregled javno dostopnih korpusov slovenskega jezika in utemeljen izbor vključili v združeni korpus, po katerem bo mogoče iskati enovito in pregledno. Pri tem bomo poenotili metapodatke in uskladili jezikoslovne in strukturne oznake med korpusi ter izdelali pretvorbe posameznih korpusov v želeni enotni format. Združeni korpus bo skupnosti na voljo prek konkordančnikov CLARIN.SI.

Izvedite več o drugih projektnih sklopih

Govorne tehnologije

Govorne tehnologije

Semantični viri in tehnologije

Semantični viri in tehnologije

Strojno prevajanje

Strojno prevajanje

© 2020. Vse pravice pridržane