KRNJENJE KOT OSNOVA NEKATERIH NEKONVENCIONALNIH METOD POIZVEDOVANJA
DOI:
https://doi.org/10.55741/knj.44.4.13960Ključne besede:
informacijska znanost, indeksiranje, avtomatsko indeksiranje, avtomatsko krnjenje, algoritmiPovzetek
IzvlečekV prispevku so predstavljeni postopki krnjenja in utemeljeni kot najpomembnejša faza priprave besedila za vključevanje v zbirke polnih dokumentov, še posebno take, ki uporabljajo ne-Boolove iskalne modele. Krnjenje je postopek obdelave besedil z algoritmi za krnjenje, s katerim avtomatsko določamo indeksne izraze, primerne za opisovanje vsebine dokumentov. Predstavljen je statistični pristop h krnjenju, morfološki in semantični vidiki krnjenja ter različne vrste algoritmov za krnjenje. Avtorja govorita tudi o kriterijih za evalvacijo algoritmov in njihovi jezikovni odvisnosti. Na koncu podrobneje predstavita nekatere algoritme, ki so bili razviti za posamezne jezike: angleščino, slovenščino, francoščino, japonščino in arabščino.
Prenosi
Literatura
Abu-Salem, H., Al-Omari, M., & Evans, M. E. (1999). Stemming methodologies over individual query vvords for an Arabic information retrieval svstem. Journal ofthe American Society for Information Science, 50(6), 524-529. DOI: https://doi.org/10.1002/(SICI)1097-4571(1999)50:6<524::AID-ASI7>3.0.CO;2-M
Dawson, J. L. (1974). Suffix removal and word conflation. ALLC Bulletin, 2, 33-46.
Dimec, J. (1988). Računalniška analiza slovenskega informacijskega jezika v biomedicini. Magistrsko delo. Ljubljana: Medicinska fakulteta.
Dimec, J. (1995). Združevanje informacij z analizo povedne moči različnih vrst slovenskih medicinskih besedil in možnosti njihovega iskanja z ne-Boolovimi metodami. Doktorska disertacija. Ljubljana: Medicinska fakulteta.
Dimec, J., Todorovski, L., Hristovski, D., & Džeroski, S. (1999). The personalized search engine for Slovenian and English medical documents. V Managingmultimedia collections (str. 56-63). 23rf Librarysystems seminar, Bled, 21-23 April 1999. Ljubljana: National and University Library.
Frakes, W. B. (1992). Stemming algorithms. V W. Frakes in R. Baeza-Yates (Ur.), Information retrieval: data structures & algorithms (str. 131-160). Englewood Cliffs: Prentice Hali.
Fujii, H., & Croft, B. (1993). A comparison of indexing techniques for Japanese text retrieval. V R. Korfhage, E. Rasmussen in P. VVillett, SIGIR 93: Proceedings of the sixteenth annual international ACM SIGIR conference on research and development in information retrieval, Pittsburgh, PA, USA, June 27 - July 1 (str. 191-202). Pridobljeno 7.9.2000 s svetovnega spleta: http://www.acm.org/pubs/citations/proceedings/ir/160688/p237-fujii/
Fuller, M., & Zoebel, J. (1998). Conflation-based comparison of stemming algorithms. V Proceedings of the Third Australian Document Computing Symposium, Sydney, Australia, August 21. Pridobljeno 2.10.2000 s svetovnega spleta: http://www.mds.rmit.edu.au/~msf/papers/adcs98.pdf
Hendry, I. G., VVillett, P., & VVood, F. E.: (1986). INSTRUCT: a teaching package for experimental methods in information retrieval. Part 2. Computational aspects. Program, 16,129-151.
Hull, D. A. (1996). Stemming algorithms: a case study for detailed evaluation. Journal of the American Society for Information Science, 47(1), 70-84. DOI: https://doi.org/10.1002/(SICI)1097-4571(199601)47:1<70::AID-ASI7>3.0.CO;2-#
Krovetz, R. (1993). Viewing morphology as an inference proces. V R. Korfhage, E. Rasmussen in P. Willett, SIGIR 93: Proceedings of the sixteenth annual international ACM SIGIR conference on research and development in information retrieval, Pittsburgh, PA, USA, June 27 - July 1 (str. 191-202). Pridobljeno 7.9.2000 s svetovnega spleta: http://www.acm.org/pubs/citations/proceedings/ir/160688/pl91-krovetz/
Paice, C. D. (1994). An evaluation method for stemming algorithms. V W. B. Croft in C. J. Rijsbergen (Ur.), SIGIR 94: Proceedings of the seventeenth annual international ACM-SIGIR Conference on research and development in information retrieval, organised by Dublin City Universitv, 3-6 July 1994, Dublin, Ireland (str. 42-50). Pridobljeno 7.9.2000 s svetovnega spleta: http://www.acm.org/pubs/citations/proceedings/ir/188490/p42-paice/ DOI: https://doi.org/10.1007/978-1-4471-2099-5_5
Paice, C. D. (1990). Another stemmer. SIGIR Forum, 24(3), 56-61. DOI: https://doi.org/10.1145/101306.101310
Popovič, M. (1990). Sodobni trendi v iskanju dokumentov. Knjižnica, 34(1-2), 9-31.
Popovič, M. (1991). Implementation ofa Slovene languagefree-text retrieval system. Doktorska disertacija. Sheffield: University of Sheffield, Department of Information Studies.
Popovič, M., & VVillett, P. (1992). The effectiveness of stemming for natural language access to Slovene textual data. Journal of the American Society for Information Science, 43(5), 384-390. DOI: https://doi.org/10.1002/(SICI)1097-4571(199206)43:5<384::AID-ASI6>3.0.CO;2-L
Porter, M. F. (1980). An algorithm for suffix stripping."Program, 14(1), 130-137. DOI: https://doi.org/10.1108/eb046814
Porter, M. F. (2000). The Porter stemming algorithm. Pridobljeno 11.9.2000 s svetovnega spleta: http://www.muscat.com/~martin/stem.html
Savoy, J. (1999). A stemming procedure and stopword list for general French corpora. Journal of the American Society for Information Science, 50(10), 944-952. DOI: https://doi.org/10.1002/(SICI)1097-4571(1999)50:10<944::AID-ASI9>3.0.CO;2-Q
Veliki splošni leksikon: v osmih knjigah. 2. dop. izd. (1998). Ljubljana: DZS.
Xu, J., & Croft, B. (1998). Corpus-based stemming usingcoocurrence of word variants. ACM Transocfions on Information Systems, 16(1), 61-81. DOI: https://doi.org/10.1145/267954.267957