Spremljevalni korpus Trendi in avtomatska kategorizacija
DOI:
https://doi.org/10.4312/slo2.0.2023.1.161-188Ključne besede:
spremljevalni korpus, avtomatska kategorizacija besedil, neologizmi, novičarski portali, slovenščinaPovzetek
Prispevek predstavlja izdelavo korpusa Trendi, prvega spremljevalnega korpusa za slovenščino. Trenutna različica Trendi 2023-02 pokriva besedila od januarja 2019 do konca februarja 2023, vsebuje pa že več kot 700 milijonov pojavnic oz. več kot 586 milijonov besed. Namen korpusa je, da tako strokovni kot nestrokovni javnosti ponudi podatke o aktualni jezikovni rabi in omogoči spremljanje pojavljanja novih besed ter upadanja ali naraščanja rabe že obstoječih. Poleg same vsebine predstavimo tudi metodologijo in načela izdelave korpusa. Drugi del prispevka opisuje razvoj algoritma za avtomatsko kategorizacijo besedil z novičarskih portalov, ki je bil pripravljen za potrebe korpusa Trendi in tudi drugih korpusov s tovrstnimi besedili. Za namene algoritma je bil izdelan nabor 13 tematskih kategorij, ki so v veliki meri prekrivne z mednarodnimi standardi in kategorijami v primerljivih korpusih drugih jezikov. Na besedilih, označenih s kategorijami, smo naučili več različnih jezikovnih modelov in z najprimernejšim dosegli visoko zanesljivost določevanja tematike besedilom.
Prenosi
Literatura
Bušta, J., Herman, O., Jakubíček, M., Krek, S., & Novak, B. (2017). JSI Newsfeed corpus. The 9th International Corpus Linguistics Conference. University of Birmingham.
Caterina, M., Silvia, B., Eugenio, G., Massimo, C., & Francesco, S. (2019). KIParla corpus: a new resource for spoken Italian. CEUR WORKSHOP PROCEEDINGS. SunSITE Central Europe.
Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., Grave, É., Ott, M., Zettlemoyer, L., & Stoyanov, V. (2020). Unsupervised Cross-lingual Representation Learning at Scale. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (pp. 8440–8451).
Cvrček, V., Křen, M., Čermáková, A., Chlumská, L., Škrabal, M., in Kováříková, D. (2020). Overview of text classification in SYN2015. Pridobljeno s https://wiki.korpus.cz/doku.php/en:cnk:klasifikace_textu_syn2015
Čibej, J., Kuzman, T., Ljubešić, N., Kosem, I., Ponikvar, P., Dobrovoljc, K., & Krek, S. (2022). Text classification model SloBERTa-Trendi-Topics 1.0. Slovenian language resource repository CLARIN.SI, ISSN 2820-4042, http://hdl.handle.net/11356/1709.
Davies, M. (2008-). The Corpus of Contemporary American English (COCA). Retrieved from https://www.english-corpora.org/coca/
Davies, M. (2010). The Corpus of Contemporary American English as the first reliable monitor corpus of English. Literary and linguistic computing, 25(4), 447−464.
Davies, M. (2016-). Corpus of News on the Web (NOW). Pridobljeno s https://www.english-corpora.org/now/
Davies, M. (2019-). The Coronavirus Corpus. Pridobljeno s https://www.english-corpora.org/corona/
De Smedt, K. (2020). Contagious “Corona” Compounding by Journalists in a CLARIN Newspaper Monitor Corpus. CLARIN Annual Conference.
Grobelnik, M., Brank, J., Mladenić, D., Novak, B., & Fortuna, B. (2006). Using DMoz for constructing ontology from data stream. 28th International Conference on Information Technology Interfaces (pp. 439−444).
Herman, O., & Kovár, V. (2013). Methods for Detection of Word Usage over Time. RASLAN.
Hnátková, M., Křen, M., Procházka, P., & Skoumalová, H. (2014). The SYN-series corpora of written Czech. Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14).
Joulin, A., Grave, É., Bojanowski, P., & Mikolov, T. (2017). Bag of Tricks for Efficient Text Classification. Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 2, Short Papers (pp. 427–431).
Kilgarriff, A., Rychlý, P., Smrz, P., & Tugwell, D. (2004). The Sketch Engine. V G. Williams in S. Vessier (ur.): Proceedings of the Eleventh EURALEX International Congress (pp. 105–116). Lorient, France.
Kosem, I., Čibej, J., Dobrovoljc, K., Erjavec, T., Ljubešić, N., Ponikvar, P., Šinkec, M., & Krek, S. (2022). Monitor corpus of Slovene Trendi 2022-10. Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1681
Krek, S., Arhar Holdt, Š., Erjavec, T., Čibej, J., Repar, A., Gantar, P., Ljubešić, N., Kosem, I., & Dobrovoljc, K. (2020). Gigafida 2.0: the reference corpus of written standard Slovene. Proceedings of the 12th Language Resources and Evaluation Conference.
Kuzman, T., Čibej, J., Ljubešić, N., Kosem, I., Ponikvar, P., Dobrovoljc, K., & Krek, S. (2022). Text classification model fastText-Trendi-Topics 1.0. Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1710
Laitinen, M., Lundberg, J., Levin, M., & Martins, R. M. (2018). The Nordic Tweet Stream: A dynamic real-time monitor corpus of big and rich language data. Digital Humanities in the Nordic Countries 3rd Conference.
Ljubešić, N., & Erjavec, T. (2018). Word embeddings CLARIN.SI-embed.sl 1.0. Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1204
Logar, N., Erjavec, T., Krek, S., Grčar, M. in Holozan, P. (2013). Written corpus ccGigafida 1.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1035
Logar Berginc, N., & Ljubešić, N. (2013). Gigafida in slWaC: tematska primerjava. Slovenščina 2.0, 1(1), 78–110.
Logar, N., Ljubešić, N., & Erjavec, T. (2015). Kres in Gigafida kot korpusna osnova za slovar: razlike in podobnosti. In M. Smolej (ur.), Slovnica in slovar – aktualni jezikovni opis (str. 479–486). Ljubljana: Znanstvena založba Filozofske fakultete.
Michel, J. B., Shen, Y. K., Aiden, A. P., Veres, A., Gray, M. K., Google Books Team, Pickett, J. P., …, & Orwant, J. (2011). Quantitative analysis of culture using millions of digitized books. science, 331(6014), 176–182.
Rajapakse, T. C. (2019). Simple Transformers. Pridobljeno s https://github.com/ThilinaRajapakse/simpletransformers
Sharoff, S. (2018). Functional text dimensions for the annotation of web corpora. Corpora, 13(1), 65–95.
Štajner, T., Rusu, D., Dali, L., Fortuna, B., Mladenić D., & Grobelnik, M. (2010). A service oriented framework for natural language text enrichment. Informatica, 34(3), 307–313.
Trampuš, M., & Novak, B. (2012). Internals of an aggregated web news feed. Proceedings of 15th Multiconference on Information Society.
Ulčar, M., Žagar, A., Armendariz, C. S., Repar, A., Pollak, S., Purver, M., in Robnik-Šikonja, M. (2021). Evaluation of contextual embeddings on less-resourced languages. arXiv preprint arXiv:2107.10614. Pridobljeno s https://arxiv.org/pdf/2107.10614.pdf
Prenosi
Objavljeno
Številka
Rubrika
Licenca
Avtorske pravice (c) 2023 Iztok Kosem, Jaka Čibej, Kaja Dobrovoljc, Taja Kuzman, Nikola Ljubešić
To delo je licencirano pod Creative Commons Priznanje avtorstva-Deljenje pod enakimi pogoji 4.0 mednarodno licenco.