KRNJENJE SLOVENSKIH BESEDIL S PODROČJA BIBLIOTEKARSTVA

Avtorji

  • Polona Vilar Mag. Polona Vilar je zaposlena kot asistentka na Oddelku za bibliotekarstvo, informacijsko znanost in knjigarstvo, Filozofska fakulteta, Univerza v Ljubljani Naslov: Aškerčeva 2, 1000 Ljubljana Naslov elektronske pošte: polona.vilar@ff.uni-lj.si
  • Jasna Maver Dr. Jasna Maver je zaposlena kot docentka na Oddelku za bibliotekarstvo, informacijsko znanost in knjigarstvo, Filozofska fakulteta, Univerza v Ljubljani Naslov: Aškerčeva 2, 1000 Ljubljana Naslov elektronske pošte: jasna.maver@ff.uni-lj.si

DOI:

https://doi.org/10.55741/knj.46.1-2.14008

Ključne besede:

avtomatsko krnjenje, algoritmi, slovenski jezik, bibliotekarstvo, science

Povzetek

Izvleček

Prispevek predstavlja pripravo algoritma za krnjenje slovenskih besedil s področja bibliotekarstva, ki je potekal v treh fazah: učni, testni in evalvacijski. Predstavljena je priprava oz. učenje Optimalnega algoritma za krnjenje bibliotekarskih besedil, njegovo testiranje in primerjava z dvema drugima algoritmoma za krnjenje, imenovanima Popovičev in Generični. Za učenje je bil uporabljen korpus 790.000 besed s področja bibliotekarstva. Zgrajeni so bili seznami krnov, besednih končnic ter blokiranih besed. Testna faza je obsegala testiranje algoritma, predvsem zgrajenih sestavnih delov, z dodatnim korpusom, obsegajočim 167.000 besed. V evalvacijski fazi je bila izvedena primerjava delovanja omenjenih treh algoritmov na istem korpusu. Rezultati delovanja algoritmov so primerjani z intelektualno pripravljenim kontrolnim rezultatom. V njem so množice semantično povezanih besed, zastopane s krni. Spremljano je premalo natačno krnjenje – koliko krnov za semantično povezane besede izdela posamezen algoritem. Rezultati so statistično obdelani s Kruskal-Wallisovim testom. Optimalni algoritem daje najboljše rezultate. Največkrat doseže popolno ujemanje s kontrolnim rezultatom in hkrati izdela najmanj krnov za en pomen. Sledi Popovičev z majhnim odstopanjem. Najmanj natančen je Generični. Opisani postopki lahko predstavljajo izhodišče za nadaljnjo gradnjo orodij za avtomatsko indeksiranje dokumentov s področja bibliotekarstva in poizvedovanje po njih.

Prenosi

Podatki o prenosih še niso na voljo.

Literatura

Adamič, Š. (1995). Temelji biostatistike. Ljubljana: Medicinska fakulteta. 2. Dimec, J., Todorovski, L., Hristovski, D., & Džeroski, S. (1999). The personalized search engine for Slovenian and English medical documents. V Managing multimedia collections. 23rd Library systems seminar, Bled, 21-23 April 1999 (str. 56-63). Ljubljana: National and University Library..

Dimec, J., Todorovski, L., Hristovski, D., & Džeroski, S. (2000). Three new stemmers for Slovenian language. Pridobljeno 29.2.2000 s spletne strani: http://www.mf.uni-lj.si/ds/new-stemmers.html

Popovič, M. (1991). Implementation of a Slovene language free-text retrieval system: a study submitted in fulfilment of the requirements for the degree of Doctor of Philosophy at the University of Sheffield. Sheffield: Department of Information Studies.

Popovič, M., & Willett, P. (1992). The effectiveness of stemming for natural language access to Slovene textual data. Journal of the American Society for Information Science, 43 (5), 384-390. DOI: https://doi.org/10.1002/(SICI)1097-4571(199206)43:5<384::AID-ASI6>3.0.CO;2-L

Vilar, P., & Dimec, J. (2000). Krnjenje kot osnova nekaterih nekonvencionalnih metod poizvedovanja. Knjižnica, 44 (4), 7-31.

Vilar, P. (2001). Krnjenje slovenskih besedil s področja bibliotekarstva. Magistrsko delo. Ljubljana: Oddelek za bibliotekarstvo, informacijsko znanost in knjigarstvo.

Prenosi

Objavljeno

07.04.2014

Številka

Rubrika

NEOPREDELJENO

Kako citirati

Vilar, P., & Maver, J. (2014). KRNJENJE SLOVENSKIH BESEDIL S PODROČJA BIBLIOTEKARSTVA. Knjižnica: Revija Za področje Bibliotekarstva in Informacijske Znanosti, 46(1-2). https://doi.org/10.55741/knj.46.1-2.14008

Najbolj brani prispevki istega avtorja(jev)

1 2 3 > >>