Razpoznavanje imenskih entitet v slovenskem besedilu
DOI:
https://doi.org/10.4312/slo2.0.2013.2.58-81Ključne besede:
prepoznavanje lastnih imen, izločanje entitet, procesiranje naravnega jezikaPovzetek
Članek predstavlja algoritem in implementacijo programa za razpoznavanje imen v slovenskem jeziku s pomočjo strojnega učenja. Nadzorovani pristop na osnovi pogojnih naključnih polj je naučen na označenem korpusu ssj500k. V korpusu, ki je prosto dostopen pod licenco Creative Commons CC-BY-NC-SA, so pri besednih pojavnicah poleg oblikoskladenjskih oznak in lem označena tudi imena organizacij, osebna, zemljepisna ter stvarna imena. Članek predstavlja vpliv na natančnost razpoznavanja ob uporabi oblikoskladenjskih oznak, leksikonov in konjunkcij sosednjih lastnosti. Ena od ugotovitev raziskave je, da so oblikoskladenjske oznake pri razpoznavanju entitet koristne. V kombinaciji z vsemi ostalimi lastnostmi doseže sistem na testni množici 74% natančnost in 72% priklic, pri čemer so najbolje razpoznana osebna imena, sledijo jim zemljepisna ter organizacijska in nazadnje stvarna imena. Novo spoznanje članka je tudi to, da lahko z delitvijo razreda vseh stvarnih imen na organizacije in preostala stvarna imena dosežemo boljše rezultate prepoznavanja tudi pri drugih razredih. Preizkusi na neodvisno označenih korpusi kažejo dobro posplošenost modela za osebna in zemljepisna imena. Programska oprema, narejena v raziskavi, je prosto dostopna pod licenco Apache 2.0 na naslovu http://ailab.ijs.si/~tadej/slner.zip, razvojne različice pa so na voljo na naslovuhttps://github.com/tadejs/slner.Prenosi
Literatura
Prenosi
Objavljeno
Kako citirati
Številka
Rubrike
Licenca
Avtorske pravice (c) 2013 Tadej Štajner, Tomaž Erjavec, Simon Krek

To delo je licencirano pod Creative Commons Priznanje avtorstva-Deljenje pod enakimi 4.0 mednarodno licenco.
Prispevki v reviji Slovenščina 2.0 so dostopni po licenci Attribution-ShareAlike 4.0 International (CC BY-SA 4.0).
Tudi pri objavi prispevkov v reviji Slovenščina 2.0 velja licenca Attribution-ShareAlike 4.0 International (CC BY-SA 4.0). Po tej licenci avtorji obdržijo avtorske pravice, hkrati pa uporabnikom dovolijo reproduciranje, distribuiranje, dajanje v najem, javno priobčitev in predelavo avtorskega dela (tudi za komercialno uporabo in predelavo), če navedejo avtorja ter citirajo delo in ga širijo naprej pod istimi pogoji. Dovoljenje niti s strani avtorja niti s strani izdajatelja revije za vse to torej ni potrebno. Predelavo in nadgradnjo dela sme uporabnik distribuirati, dati v najem ali priobčiti javnosti le pod pogoji te iste licence, novejše različice te licence z istimi elementi, kot jih vsebuje ta licenca, ali z drugo nacionalno licenco Creative Commons, ki vsebuje iste elemente licence kot ta licenca.
Pri reviji Slovenščina 2.0 med avtorji in izdajateljem niso sklenjene nobene dodatne pogodbe ali dogovori, avtorji torej avtorske pravice in pravice nadaljnjega širjenja obdržijo brez omejitev.
Pri reviji Slovenščina 2.0 avtorjem dovoljujemo in jih spodbujamo, da svoje besedilo, ki je bilo objavljeno v reviji Slovenščina 2.0, objavijo še kje drugje na spletu (npr. v institucionalnih repozitorijih, na osebnih spletnih straneh), vendar s pripisom, v katerem je razvidno, da je naša revija besedilo objavila prva.