Modeli za predikcijo oblikoslovnih paradigem za hrvaške besede

Avtorji

  • Jan Šnajder University of Zagreb, Faculty of Electrical Engineering and Computing, Text Analysis and Knowledge Engineering Lab

DOI:

https://doi.org/10.4312/slo2.0.2013.2.1-34

Ključne besede:

računalniška morfologija, predikcija oblikoslovnih paradigem, strojno učenje, izbor značilk, hrvaški jezik

Povzetek

Morfološka analiza je predpogoj za številne naloge pri računalniški obdelavi jezika. Pri oblikoslovno bogatih jezikih, kot je hrvaščina, temelji morfološka analiza navadno na morfološkem leksikonu, ki vsebuje seznam lem in njihove oblikoslovne paradigme. Vendar pa mora uporaben morfološki analizator znati ustrezno razčleniti tudi besede, ki jih ni v leksikonu. V prispevku se lotevamo avtomatskega prepoznavanja ustrezne oblikoslovne paradigme pri še neznanih hrvaških besedah. Problem obravnavamo z nadzorovanim strojnim učenjem, kjer na osnovi vrste besednih in korpusnih značilk klasifikator naučimo predvidevati, ali je določen par lema–paradigma ustrezen. Pare lema–paradigma smo generirali s pomočjo ročno izdelane oblikoslovne gramatike. Namen prispevka je analizirati postopke strojnega učenja pri obravnavi tega problema: testirali smo bogat nabor značilk in ocenili natančnost klasifikacije z uporabo različnih podmnožic značilk. Pokažemo, da je zadovoljivo natančnost klasifikacije (92 %) mogoče doseči z metodo SVM in z uporabo kombinacije besednih in korpusnih značilk. Dosežena natančnost za posamezno besedo v našem modelu je 70 %, vrednost F1 je 53 %, kar je bistveno boljše kot rezultat, ki upošteva samo pogostost pojavitev. Članek zaključimo s smernicami za nadaljnje delo.

Prenosi

Podatki o prenosih še niso na voljo.

Literatura

Šnajder, J. (2013): Models for predicting the inflectional paradigm of Croatian words. Slovenščina 2.0, 1 (2): 1–34.

Prenosi

Objavljeno

1. 12. 2013

Kako citirati

Šnajder, J. (2013). Modeli za predikcijo oblikoslovnih paradigem za hrvaške besede. Slovenščina 2.0: Empirične, Aplikativne in Interdisciplinarne Raziskave, 1(2), 1-34. https://doi.org/10.4312/slo2.0.2013.2.1-34

Najbolj brani prispevki istega avtorja(jev)