Utemeljevanje sloWNeta na korpusnih podatkih
DOI:
https://doi.org/10.4312/slo2.0.2013.2.82-112Ključne besede:
leksikalna semantika, wordnet, semantična podobnost, semantične relacijePovzetek
Wordnet lahko izdelamo na podlagi že obstoječega tujejezičnega wordneta ali pa kot osnovo za gradnjo vzamemo korpusne podatke. Prvi pristop je preprostejši in enostavnejši, zaradi česar ga razvijalci tudi najpogosteje uporabljajo. Vendar ima ta pristop veliko pomanjkljivost, predvsem to, da tako izdelan vir ne odseva nujno jezika, za katerega je bil izdelan. Zato v pričujočem prispevku predstavljamo pristop, ki izhaja iz jezikovnih podatkov, pridobljenih iz jezikoslovno označenega referenčnega korpusa, iz katerega smo s pomočjo preprostih statističnih metod izluščili sezname semantično podobnih besed, ki smo jih nato vključili v wordnet za slovenščino. Pristop je bil prvotno razvit za poljščino, vendar je privlačen tudi za druge jezike, saj zanj potrebujemo minimalna jezikovnotehnološka orodja in vire, zato ga je enostavno uporabiti tudi za jezike, za katere obsežen wordnet ali podoben semantični leksikon še ne obstaja. Druga pomembna prednost uporabljenega pristopa pa je, da temelji na izpričani jezikovni rabi, pridobljeni iz korpusa, ki se nato kaže v jezikovno utemeljeni organizaciji besedišča v izdelani semantični mreži. Glede na to, da so vsi naši dosedanji pristopi za izdelovo slovenskega wordneta celotno strukturo prevzeli iz Princetonovega WordNeta, ki je bil izdelan za angleščino, bodo spodbudni rezultati, dobljeni s pričujočo metodo, koristno dopolnjevali obstoječo semantično mrežo.Prenosi
Podatki o prenosih še niso na voljo.
Literatura
Fišer, D., Piasecki, M., Broda, B. (2013): Grounding sloWNet on Slovene corpus data. Slovenščina 2.0, letnik (številka): 82–112.
Prenosi
Objavljeno
1. 12. 2013
Številka
Rubrika
Razprave
Licenca
Avtorske pravice (c) 2013 Darja Fišer, Maciej Piasecki, Bartosz Broda

To delo je licencirano pod Creative Commons Priznanje avtorstva-Deljenje pod enakimi pogoji 4.0 mednarodno licenco.
Kako citirati
Fišer, D., Piasecki, M., & Broda, B. (2013). Utemeljevanje sloWNeta na korpusnih podatkih. Slovenščina 2.0: Empirične, Aplikativne in Interdisciplinarne Raziskave, 1(2), 82-112. https://doi.org/10.4312/slo2.0.2013.2.82-112