KRNJENJE KOT OSNOVA NEKATERIH NEKONVENCIONALNIH METOD POIZVEDOVANJA
DOI:
https://doi.org/10.55741/knj.44.4.13960Ključne besede:
informacijska znanost, indeksiranje, avtomatsko indeksiranje, avtomatsko krnjenje, algoritmiPovzetek
IzvlečekV prispevku so predstavljeni postopki krnjenja in utemeljeni kot najpomembnejša faza priprave besedila za vključevanje v zbirke polnih dokumentov, še posebno take, ki uporabljajo ne-Boolove iskalne modele. Krnjenje je postopek obdelave besedil z algoritmi za krnjenje, s katerim avtomatsko določamo indeksne izraze, primerne za opisovanje vsebine dokumentov. Predstavljen je statistični pristop h krnjenju, morfološki in semantični vidiki krnjenja ter različne vrste algoritmov za krnjenje. Avtorja govorita tudi o kriterijih za evalvacijo algoritmov in njihovi jezikovni odvisnosti. Na koncu podrobneje predstavita nekatere algoritme, ki so bili razviti za posamezne jezike: angleščino, slovenščino, francoščino, japonščino in arabščino.
Prenosi
Literatura
Abu-Salem, H., Al-Omari, M., & Evans, M. E. (1999). Stemming methodologies over individual query vvords for an Arabic information retrieval svstem. Journal ofthe American Society for Information Science, 50(6), 524-529. DOI: https://doi.org/10.1002/(SICI)1097-4571(1999)50:6<524::AID-ASI7>3.0.CO;2-M
Dawson, J. L. (1974). Suffix removal and word conflation. ALLC Bulletin, 2, 33-46.
Dimec, J. (1988). Računalniška analiza slovenskega informacijskega jezika v biomedicini. Magistrsko delo. Ljubljana: Medicinska fakulteta.
Dimec, J. (1995). Združevanje informacij z analizo povedne moči različnih vrst slovenskih medicinskih besedil in možnosti njihovega iskanja z ne-Boolovimi metodami. Doktorska disertacija. Ljubljana: Medicinska fakulteta.
Dimec, J., Todorovski, L., Hristovski, D., & Džeroski, S. (1999). The personalized search engine for Slovenian and English medical documents. V Managingmultimedia collections (str. 56-63). 23rf Librarysystems seminar, Bled, 21-23 April 1999. Ljubljana: National and University Library.
Frakes, W. B. (1992). Stemming algorithms. V W. Frakes in R. Baeza-Yates (Ur.), Information retrieval: data structures & algorithms (str. 131-160). Englewood Cliffs: Prentice Hali.
Fujii, H., & Croft, B. (1993). A comparison of indexing techniques for Japanese text retrieval. V R. Korfhage, E. Rasmussen in P. VVillett, SIGIR 93: Proceedings of the sixteenth annual international ACM SIGIR conference on research and development in information retrieval, Pittsburgh, PA, USA, June 27 - July 1 (str. 191-202). Pridobljeno 7.9.2000 s svetovnega spleta: http://www.acm.org/pubs/citations/proceedings/ir/160688/p237-fujii/
Fuller, M., & Zoebel, J. (1998). Conflation-based comparison of stemming algorithms. V Proceedings of the Third Australian Document Computing Symposium, Sydney, Australia, August 21. Pridobljeno 2.10.2000 s svetovnega spleta: http://www.mds.rmit.edu.au/~msf/papers/adcs98.pdf
Hendry, I. G., VVillett, P., & VVood, F. E.: (1986). INSTRUCT: a teaching package for experimental methods in information retrieval. Part 2. Computational aspects. Program, 16,129-151.
Hull, D. A. (1996). Stemming algorithms: a case study for detailed evaluation. Journal of the American Society for Information Science, 47(1), 70-84. DOI: https://doi.org/10.1002/(SICI)1097-4571(199601)47:1<70::AID-ASI7>3.0.CO;2-#
Krovetz, R. (1993). Viewing morphology as an inference proces. V R. Korfhage, E. Rasmussen in P. Willett, SIGIR 93: Proceedings of the sixteenth annual international ACM SIGIR conference on research and development in information retrieval, Pittsburgh, PA, USA, June 27 - July 1 (str. 191-202). Pridobljeno 7.9.2000 s svetovnega spleta: http://www.acm.org/pubs/citations/proceedings/ir/160688/pl91-krovetz/
Paice, C. D. (1994). An evaluation method for stemming algorithms. V W. B. Croft in C. J. Rijsbergen (Ur.), SIGIR 94: Proceedings of the seventeenth annual international ACM-SIGIR Conference on research and development in information retrieval, organised by Dublin City Universitv, 3-6 July 1994, Dublin, Ireland (str. 42-50). Pridobljeno 7.9.2000 s svetovnega spleta: http://www.acm.org/pubs/citations/proceedings/ir/188490/p42-paice/ DOI: https://doi.org/10.1007/978-1-4471-2099-5_5
Paice, C. D. (1990). Another stemmer. SIGIR Forum, 24(3), 56-61. DOI: https://doi.org/10.1145/101306.101310
Popovič, M. (1990). Sodobni trendi v iskanju dokumentov. Knjižnica, 34(1-2), 9-31.
Popovič, M. (1991). Implementation ofa Slovene languagefree-text retrieval system. Doktorska disertacija. Sheffield: University of Sheffield, Department of Information Studies.
Popovič, M., & VVillett, P. (1992). The effectiveness of stemming for natural language access to Slovene textual data. Journal of the American Society for Information Science, 43(5), 384-390. DOI: https://doi.org/10.1002/(SICI)1097-4571(199206)43:5<384::AID-ASI6>3.0.CO;2-L
Porter, M. F. (1980). An algorithm for suffix stripping."Program, 14(1), 130-137. DOI: https://doi.org/10.1108/eb046814
Porter, M. F. (2000). The Porter stemming algorithm. Pridobljeno 11.9.2000 s svetovnega spleta: http://www.muscat.com/~martin/stem.html
Savoy, J. (1999). A stemming procedure and stopword list for general French corpora. Journal of the American Society for Information Science, 50(10), 944-952. DOI: https://doi.org/10.1002/(SICI)1097-4571(1999)50:10<944::AID-ASI9>3.0.CO;2-Q
Veliki splošni leksikon: v osmih knjigah. 2. dop. izd. (1998). Ljubljana: DZS.
Xu, J., & Croft, B. (1998). Corpus-based stemming usingcoocurrence of word variants. ACM Transocfions on Information Systems, 16(1), 61-81. DOI: https://doi.org/10.1145/267954.267957
Prenosi
Objavljeno
Kako citirati
Številka
Rubrike
Licenca
Opomba o avtorskih pravicah
Avtorji, ki želijo, da se njihov članek objavi v reviji, se strinjajo z naslednjimi pogoji:
- Pisci besedila potrjujejo, da so avtorji oddanega članka, ki bo predvidoma izšel v reviji Knjižnica v okviru Založbe Univerze v Ljubljani. Imena in priimki avtorjev bodo navedeni v prispevku v reviji. O likovno-grafični in tehnični opremi dela ter o pogojih njegovega trženja odloča založnik.
- Avtorji jamčijo, da je delo njihova avtorska stvaritev, da na njem ne obstajajo pravice tretjih oseb in da z njim niso kršene kakšne druge pravice. V primeru zahtevkov tretjih oseb se avtorji zavezujejo, da bodo varovali interese založnika ter mu povrnil škodo in stroške.
- Avtorji obdržijo materialne avtorske pravice ter založniku priznajo pravico do prve izdaje članka z licenco Creative Commons Attribution-ShareAlike 4.0 International License(priznanje avtorstva in deljenje pod istimi pogoji). To pomeni, da se tako besedilo, slike, grafi in druge sestavine dela lahko prosto distribuirajo, reproducirajo, uporabljajo, priobčujejo javnosti in predelujejo, pod pogojem, da se jasno in vidno navede avtorja in naslov tega dela in da se v primeru spremembe, preoblikovanja ali uporabe tega dela v svojem delu, lahko distribuira predelava le pod licenco, ki je enaka tej.
- Avtorji lahko sklenejo dodatne ločene pogodbene dogovore za neizključno distribucijo različice dela, objavljene v reviji, (npr. oddaja v institucionalni repozitorij ali objava v knjigi) z navedbo, da je bilo delo prvič objavljeno v tej reviji.
Avtorji lahko delo objavijo na spletu (npr. v institucionalnih repozitorijih ali na svojih spletnih straneh), k čemur jih tudi spodbujamo, saj lahko to prispeva k plodnim izmenjavam ter hitrejšemu in obsežnejšemu navajanju objavljenega dela.