Vzdrževanje infrastrukturnega centra za jezikovne vire in tehnologije

Delovni sklop 6

V šestem sklopu bo slovenska raziskovalna infrastruktura za jezikovne vire in tehnologije CLARIN.SI skrbela za javno dostopnost jezikovnih virov, ki bodo nastali v okviru projekta. Pri tem bodo upoštevani mednarodni standardi in dobre prakse pri zapisu virov. Vire bomo varno dolgotrajno arhivirali v certificiranem repozitoriju, izdelani korpusi pa bodo na voljo v spletnih konkordančnikih CLARIN.SI.

Predvideni učinki ali kazalniki

  • Zagotovili bomo tehnično brezhibne jezikovne vire projekta, ki bodo z opisi in s skrbno preverjenimi podatki dolgoročno javno dostopni v repozitoriju CLARIN.SI za jezikoslovne analize raziskovalcev, študentov in vseh ostalih, ki jih zanima slovenski jezik.
  • Zagotovili bomo standardizirane sheme XML, ki so potrebne za dokumentacijo in validacijo zapisa jezikovnih virov, izdelanih v okviru projekta.

Storitve CLARIN.SI

Evropska raziskovalna infrastruktura CLARIN (European Research Infrastructure for Language Resources and Technology) je namenjena zagotavljanju dostopa do jezikovnih virov in storitev za namene raziskav v humanistiki in družboslovju, pa tudi na drugih raziskovalnih področjih, ki vključujejo raziskave jezika oz. jezikovnih podatkov, kot je npr. umetna inteligenca. Slovenska infrastruktura CLARIN.SI s sedežem na IJS je članica CLARIN ERIC in je organizirana kot konzorcij dvanajstih partnerjev, v katerem so združene vse glavne institucije, ki se v Sloveniji ukvarjajo z razvojem ali uporabo jezikovnih virov in tehnologij.

Za projekt sta pomembni dve spletni storitvi, ki ju vzdržuje CLARIN.SI – repozitorij in dva spletna konkordančnika.

Repozitorij omogoča dolgotrajno in varno hranjenje jezikovnih virov in orodij. Je drugi v Sloveniji , ki je pridobil certifikat Core Trust Seal, certificiran pa je tudi kot CLARIN center tipa B. Trenutno njegov obseg presega 200 vnosov, izmed katerih jih 140 vključuje podatke za slovenski jezik, ki so ključnega pomena za računalniško jezikoslovje.

Delo na repozitoriju obsega vzdrževanje programske in strojne opreme, skrb za nemoteno delovanje sistema in uredniško delo pri novih vnosih. V okviru projekta bo uredniški postopek razširjen na validacijo samih podatkov, katerih zapis bo moral ustrezati izdelanim shemam. Poleg formalne validacije bodo viri tudi kvalitativno ovrednoteni.

Pooblaščeni uredniki bodo skrbeli, da bodo vnosi avtorjev skladni z zahtevami repozitorija, in sicer z vidika popolnosti in konsistentnosti metapodatkov ter upoštevanja odprtih standardov in dobrih praks pri zapisu podatkov. Evalvacija bo podlaga za sprejem vira v repozitorij; v primeru pripomb bo vnos vrnjen avtorjem s podrobnimi smernicami za njegovo izboljšanje ali pa bo tehnične pomanjkljivosti, v dogovoru z avtorji, odpravilo osebje CLARIN.SI.

CLARIN.SI ponuja tudi dva spletna konkordančnika, tj. zmogljivi orodji za analizo korpusov, ki sta koristni predvsem za jezikoslovce. Trenutno nudita dostop do 75 korpusov v 27 jezikih; skupno obsegata prek 15 milijard besed. Vsi javno dostopni korpusi, ki bodo vneseni v repozitorij, bodo dodatno pretvorjeni v t. i. vertikalni format, kar vključuje razvoj pretvorb, ta format pa nato služi kot osnova za postavitev korpusov pod konkordančnike CLARIN.SI, s čimer bodo korpusi postali dostopni tudi jezikoslovcem za opravljanje korpusnih analiz.

Poleg tega bomo tudi ustrezno usposobili nove sodelavce, osebje pa bo uporabnikom na voljo za odgovarjanje na vprašanja, povezana s projektom.

Razvoj in vzdrževanje shem XML

V okviru projekta bo razvitih mnogo dragocenih jezikovnih virov za slovenski jezik, ki morajo za svojo dolgoročno uporabo, za izmenljivost med aplikacijami in za možnost večkratne uporabe biti enovito kodirani z upoštevanjem mednarodnih standardov in priporočil. V tem sklopu bomo nadgradili in razvili sheme XML, ki se že sedaj uporabljajo za vnose v repozitorij CLARIN.SI, da bodo podpirale v okviru projekta razvite ali nadgrajene jezikovne vire, predvsem korpuse in leksikone. Razvili in vzdrževali bomo tudi opise in formalna besedišča jezikoslovnih oznak na ravni oblikoskladnje, skladnje, semantičnih vlog, imenskih entitet in podobno. Poleg tega bomo zagotovili, da bodo ti viri prenosljivi med aplikacijami, zapisani v skladu z odprtimi standardi in dobrimi praksami, najdljivi ter enostavno in dolgoročno dostopni.

Izvedite več o drugih projektnih sklopih

Jezikovni viri

Jezikovni viri

Govorne tehnologije

Govorne tehnologije

Semantični viri in tehnologije

Semantični viri in tehnologije

© 2020. Vse pravice pridržane