Učni korpus SSJ in leksikon besednih oblik za slovenščino

Avtorji

  • Špela Arhar

Ključne besede:

učni korpus | označevanje korpusa | oblikoskladenjsko označevanje | skladenjsko označevanje | označevanje lastnih imen | leksikon besednih oblik

Povzetek

Glavni namen prispevka je predstavitev priprave učnega korpusa ter leksikona besednih oblik za slovenščino. 400.000 besed obsegajoči korpus SSJ predvideva štirinivojsko označenost: lematizacijo, označenost na oblikoskladenjski ter skladenjski ravni ter označenost lastnih imen. Vse oznake bodo ročno pregledane. Skupaj s korpusom JOS100k tvori korpus SSJ polmilijonski učni korpus za učenje statističnih modelov za npr. oblikoskladenjsko označevanje ter skladenjsko razčlenjevanje slovenščine. Leksikon besednih oblik bo prinašal okvirno 100.000 leksikonskih enot, vsebujočih oblikoslovne paradigme posameznih besed z naborom informacij, prekrivnih s sistemom oblikoskladenjskega označevanja JOS. Predvidena je vključitev informacij o (besedotvorni) povezanosti leksikonskih enot, v primeru v jezikovni rabi izpričane oblikovne variantnosti pa bodo vključeni tudi podatki o pogostnosti oblik ter njihovi trenutni opredeljenosti v normativnih virih. Vključitev večbesednih enot je predvidena na ravni večbesednih lastnih imen ter oblik, ki se variantno pišejo skupaj oz. narazen.

Prenosi

Podatki o prenosih še niso na voljo.

Prenosi

Objavljeno

04.01.2024

Številka

Rubrika

Članki

Kako citirati

Arhar, Špela. (2024). Učni korpus SSJ in leksikon besednih oblik za slovenščino. Jezik in Slovstvo, 54(3-4), 43-56. https://journals.uni-lj.si/jezikinslovstvo/article/view/17468