Utemeljevanje sloWNeta na korpusnih podatkih

Avtorji

  • Darja Fišer Department of Translation, Faculty of Arts, University of Ljubljana
  • Maciej Piasecki Department of Artificial Intelligence, Institute of Informatics, Wroclaw University of Technology
  • Bartosz Broda Department of Artificial Intelligence, Institute of Informatics, Wroclaw University of Technology

DOI:

https://doi.org/10.4312/slo2.0.2013.2.82-112

Ključne besede:

leksikalna semantika, wordnet, semantična podobnost, semantične relacije

Povzetek

Wordnet lahko izdelamo na podlagi že obstoječega tujejezičnega wordneta ali pa kot osnovo za gradnjo vzamemo korpusne podatke. Prvi pristop je preprostejši in enostavnejši, zaradi česar ga razvijalci tudi najpogosteje uporabljajo. Vendar ima ta pristop veliko pomanjkljivost, predvsem to, da tako izdelan vir ne odseva nujno jezika, za katerega je bil izdelan. Zato v pričujočem prispevku predstavljamo pristop, ki izhaja iz jezikovnih podatkov, pridobljenih iz jezikoslovno označenega referenčnega korpusa, iz katerega smo s pomočjo preprostih statističnih metod izluščili sezname semantično podobnih besed, ki smo jih nato vključili v wordnet za slovenščino. Pristop je bil prvotno razvit za poljščino, vendar je privlačen tudi za druge jezike, saj zanj potrebujemo minimalna jezikovnotehnološka orodja in vire, zato ga je enostavno uporabiti tudi za jezike, za katere obsežen wordnet ali podoben semantični leksikon še ne obstaja. Druga pomembna prednost uporabljenega pristopa pa je, da temelji na izpričani jezikovni rabi, pridobljeni iz korpusa, ki se nato kaže v jezikovno utemeljeni organizaciji besedišča v izdelani semantični mreži. Glede na to, da so vsi naši dosedanji pristopi za izdelovo slovenskega wordneta celotno strukturo prevzeli iz Princetonovega WordNeta, ki je bil izdelan za angleščino, bodo spodbudni rezultati, dobljeni s pričujočo metodo, koristno dopolnjevali obstoječo semantično mrežo.

Prenosi

Podatki o prenosih še niso na voljo.

Literatura

Fišer, D., Piasecki, M., Broda, B. (2013): Grounding sloWNet on Slovene corpus data. Slovenščina 2.0, letnik (številka): 82–112.

Prenosi

Objavljeno

1. 12. 2013

Kako citirati

Fišer, D., Piasecki, M., & Broda, B. (2013). Utemeljevanje sloWNeta na korpusnih podatkih. Slovenščina 2.0: Empirične, Aplikativne in Interdisciplinarne Raziskave, 1(2), 82-112. https://doi.org/10.4312/slo2.0.2013.2.82-112

Najbolj brani prispevki istega avtorja(jev)

1 2 > >>