Izgradnja modelov za prepoznavanje imenskih entitet za hrvaščino in slovenščino

Avtorji

  • Nikola Ljubešić University of Zagreb, Faculty of Humanities and Social Sciences, Department of Information and Communication Sciences
  • Marija Stupar
  • Tereza Jurić University of Zagreb, Faculty of Humanities and Social Sciences, Department of Information and Communication Sciences
  • Željko Agić University of Zagreb, Faculty of Humanities and Social Sciences, Department of Information and Communication Sciences

DOI:

https://doi.org/10.4312/slo2.0.2013.2.35-57

Ključne besede:

prepoznavanje imenskih entitet, distribucijske lastnosti, hrvaščina, slovenščina

Povzetek

Prispevek predstavlja razvoj prosto dostopnih modelov za prepoznavanje in klasifikacijo imenskih enot za hrvaški in slovenski jezik. Poskusi se osredotočajo na najbolj informativne jezikovne lastnosti, pri čemer upoštevajo dostopnost jezikovnih orodij za oba jezika. Poleg standardnih jezikovnih lastnosti so upoštevane tudi distribucijske lastnosti, ki so bile izračunane iz velikih neoznačenih enojezičnih korpusov. Uporaba distribucijskih lastnosti izboljša rezultate za 7-8 točk v meri F1, uporaba oblikoslovnih informacij pa dodatno za 3-4 točke, in to pri obeh jezikih. Najboljši naučeni model skupaj s testno množico za primerjavo z obstoječimi in bodočimi sistemi ter model za oblikoslovno označevanje hrvaščine s programom HunPos so dostopni za prenos za uporabo v znanstvene in komercialne namene.

Prenosi

Podatki o prenosih še niso na voljo.

Literatura

Ljubešić, N., Stupar, M., Jurić, T., Agić, Ž. (2013): Combining Available Datasets for Building Named Entity Recognition Models of Croatian and Slovene. Slovenščina 2.0, 1 (2): 35–57.

Prenosi

Objavljeno

1. 12. 2013

Kako citirati

Ljubešić, N., Stupar, M., Jurić, T., & Agić, Željko. (2013). Izgradnja modelov za prepoznavanje imenskih entitet za hrvaščino in slovenščino. Slovenščina 2.0: Empirične, Aplikativne in Interdisciplinarne Raziskave, 1(2), 35-57. https://doi.org/10.4312/slo2.0.2013.2.35-57

Najbolj brani prispevki istega avtorja(jev)