Učni korpus SSJ in leksikon besednih oblik za slovenščino
DOI:
https://doi.org/10.4312/jis.54.3-4.43-56Ključne besede:
učni korpus | označevanje korpusa | oblikoskladenjsko označevanje | skladenjsko označevanje | označevanje lastnih imen | leksikon besednih oblikPovzetek
Glavni namen prispevka je predstavitev priprave učnega korpusa ter leksikona besednih oblik za slovenščino. 400.000 besed obsegajoči korpus SSJ predvideva štirinivojsko označenost: lematizacijo, označenost na oblikoskladenjski ter skladenjski ravni ter označenost lastnih imen. Vse oznake bodo ročno pregledane. Skupaj s korpusom JOS100k tvori korpus SSJ polmilijonski učni korpus za učenje statističnih modelov za npr. oblikoskladenjsko označevanje ter skladenjsko razčlenjevanje slovenščine. Leksikon besednih oblik bo prinašal okvirno 100.000 leksikonskih enot, vsebujočih oblikoslovne paradigme posameznih besed z naborom informacij, prekrivnih s sistemom oblikoskladenjskega označevanja JOS. Predvidena je vključitev informacij o (besedotvorni) povezanosti leksikonskih enot, v primeru v jezikovni rabi izpričane oblikovne variantnosti pa bodo vključeni tudi podatki o pogostnosti oblik ter njihovi trenutni opredeljenosti v normativnih virih. Vključitev večbesednih enot je predvidena na ravni večbesednih lastnih imen ter oblik, ki se variantno pišejo skupaj oz. narazen.Prenosi
Podatki o prenosih še niso na voljo.
Prenosi
Objavljeno
15.03.2009
Številka
Rubrika
Članki
Licenca
Avtorske pravice (c) 2009 Špela Arhar
To delo je licencirano pod Creative Commons Priznanje avtorstva-Deljenje pod enakimi pogoji 4.0 mednarodno licenco.
Kako citirati
Arhar, Špela. (2009). Učni korpus SSJ in leksikon besednih oblik za slovenščino. Jezik in Slovstvo, 54(3-4), 43-56. https://doi.org/10.4312/jis.54.3-4.43-56