Spremljevalni korpus Trendi in avtomatska kategorizacija

Avtorji

  • Iztok Kosem Univerza v Ljubljani, Filozofska fakulteta; Institut Jožef Stefan, Ljubljana; Univerza v Ljubljani, Fakulteta za računalništvo in informatiko
  • Jaka Čibej Institut Jožef Stefan, Ljubljana; Univerza v Ljubljani, Filozofska fakulteta
  • Kaja Dobrovoljc Univerza v Ljubljani, Filozofska fakulteta; Institut Jožef Stefan, Ljubljana
  • Taja Kuzman Institut Jožef Stefan, Ljubljana
  • Nikola Ljubešić Institut Jožef Stefan, Ljubljana; Univerza v Ljubljani, Fakulteta za računalništvo in informatiko; Inštitut za novejšo zgodovino, Ljubljana

DOI:

https://doi.org/10.4312/slo2.0.2023.1.161-188

Ključne besede:

spremljevalni korpus, avtomatska kategorizacija besedil, neologizmi, novičarski portali, slovenščina

Povzetek

Prispevek predstavlja izdelavo korpusa Trendi, prvega spremljevalnega korpusa za slovenščino. Trenutna različica Trendi 2023-02 pokriva besedila od januarja 2019 do konca februarja 2023, vsebuje pa že več kot 700 milijonov pojavnic oz. več kot 586 milijonov besed. Namen korpusa je, da tako strokovni kot nestrokovni javnosti ponudi podatke o aktualni jezikovni rabi in omogoči spremljanje pojavljanja novih besed ter upadanja ali naraščanja rabe že obstoječih. Poleg same vsebine predstavimo tudi metodologijo in načela izdelave korpusa. Drugi del prispevka opisuje razvoj algoritma za avtomatsko kategorizacijo besedil z novičarskih portalov, ki je bil pripravljen za potrebe korpusa Trendi in tudi drugih korpusov s tovrstnimi besedili. Za namene algoritma je bil izdelan nabor 13 tematskih kategorij, ki so v veliki meri prekrivne z mednarodnimi standardi in kategorijami v primerljivih korpusih drugih jezikov. Na besedilih, označenih s kategorijami, smo naučili več različnih jezikovnih modelov in z najprimernejšim dosegli visoko zanesljivost določevanja tematike besedilom.

Prenosi

Podatki o prenosih še niso na voljo.

Literatura

Bušta, J., Herman, O., Jakubíček, M., Krek, S., & Novak, B. (2017). JSI Newsfeed corpus. The 9th International Corpus Linguistics Conference. University of Birmingham.

Caterina, M., Silvia, B., Eugenio, G., Massimo, C., & Francesco, S. (2019). KIParla corpus: a new resource for spoken Italian. CEUR WORKSHOP PROCEEDINGS. SunSITE Central Europe.

Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., Grave, É., Ott, M., Zettlemoyer, L., & Stoyanov, V. (2020). Unsupervised Cross-lingual Representation Learning at Scale. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (pp. 8440–8451). DOI: https://doi.org/10.18653/v1/2020.acl-main.747

Cvrček, V., Křen, M., Čermáková, A., Chlumská, L., Škrabal, M., in Kováříková, D. (2020). Overview of text classification in SYN2015. Pridobljeno s https://wiki.korpus.cz/doku.php/en:cnk:klasifikace_textu_syn2015

Čibej, J., Kuzman, T., Ljubešić, N., Kosem, I., Ponikvar, P., Dobrovoljc, K., & Krek, S. (2022). Text classification model SloBERTa-Trendi-Topics 1.0. Slovenian language resource repository CLARIN.SI, ISSN 2820-4042, http://hdl.handle.net/11356/1709.

Davies, M. (2008-). The Corpus of Contemporary American English (COCA). Retrieved from https://www.english-corpora.org/coca/

Davies, M. (2010). The Corpus of Contemporary American English as the first reliable monitor corpus of English. Literary and linguistic computing, 25(4), 447−464. DOI: https://doi.org/10.1093/llc/fqq018

Davies, M. (2016-). Corpus of News on the Web (NOW). Pridobljeno s https://www.english-corpora.org/now/

Davies, M. (2019-). The Coronavirus Corpus. Pridobljeno s https://www.english-corpora.org/corona/

De Smedt, K. (2020). Contagious “Corona” Compounding by Journalists in a CLARIN Newspaper Monitor Corpus. CLARIN Annual Conference. DOI: https://doi.org/10.3384/ecp18010

Grobelnik, M., Brank, J., Mladenić, D., Novak, B., & Fortuna, B. (2006). Using DMoz for constructing ontology from data stream. 28th International Conference on Information Technology Interfaces (pp. 439−444). DOI: https://doi.org/10.1109/ITI.2006.1708521

Herman, O., & Kovár, V. (2013). Methods for Detection of Word Usage over Time. RASLAN.

Hnátková, M., Křen, M., Procházka, P., & Skoumalová, H. (2014). The SYN-series corpora of written Czech. Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14).

Joulin, A., Grave, É., Bojanowski, P., & Mikolov, T. (2017). Bag of Tricks for Efficient Text Classification. Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 2, Short Papers (pp. 427–431). DOI: https://doi.org/10.18653/v1/E17-2068

Kilgarriff, A., Rychlý, P., Smrz, P., & Tugwell, D. (2004). The Sketch Engine. V G. Williams in S. Vessier (ur.): Proceedings of the Eleventh EURALEX International Congress (pp. 105–116). Lorient, France.

Kosem, I., Čibej, J., Dobrovoljc, K., Erjavec, T., Ljubešić, N., Ponikvar, P., Šinkec, M., & Krek, S. (2022). Monitor corpus of Slovene Trendi 2022-10. Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1681

Krek, S., Arhar Holdt, Š., Erjavec, T., Čibej, J., Repar, A., Gantar, P., Ljubešić, N., Kosem, I., & Dobrovoljc, K. (2020). Gigafida 2.0: the reference corpus of written standard Slovene. Proceedings of the 12th Language Resources and Evaluation Conference.

Kuzman, T., Čibej, J., Ljubešić, N., Kosem, I., Ponikvar, P., Dobrovoljc, K., & Krek, S. (2022). Text classification model fastText-Trendi-Topics 1.0. Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1710

Laitinen, M., Lundberg, J., Levin, M., & Martins, R. M. (2018). The Nordic Tweet Stream: A dynamic real-time monitor corpus of big and rich language data. Digital Humanities in the Nordic Countries 3rd Conference.

Ljubešić, N., & Erjavec, T. (2018). Word embeddings CLARIN.SI-embed.sl 1.0. Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1204

Logar, N., Erjavec, T., Krek, S., Grčar, M. in Holozan, P. (2013). Written corpus ccGigafida 1.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1035

Logar Berginc, N., & Ljubešić, N. (2013). Gigafida in slWaC: tematska primerjava. Slovenščina 2.0, 1(1), 78–110. DOI: https://doi.org/10.4312/slo2.0.2013.1.78-110

Logar, N., Ljubešić, N., & Erjavec, T. (2015). Kres in Gigafida kot korpusna osnova za slovar: razlike in podobnosti. In M. Smolej (ur.), Slovnica in slovar – aktualni jezikovni opis (str. 479–486). Ljubljana: Znanstvena založba Filozofske fakultete.

Michel, J. B., Shen, Y. K., Aiden, A. P., Veres, A., Gray, M. K., Google Books Team, Pickett, J. P., …, & Orwant, J. (2011). Quantitative analysis of culture using millions of digitized books. science, 331(6014), 176–182. DOI: https://doi.org/10.1126/science.1199644

Rajapakse, T. C. (2019). Simple Transformers. Pridobljeno s https://github.com/ThilinaRajapakse/simpletransformers

Sharoff, S. (2018). Functional text dimensions for the annotation of web corpora. Corpora, 13(1), 65–95. DOI: https://doi.org/10.3366/cor.2018.0136

Štajner, T., Rusu, D., Dali, L., Fortuna, B., Mladenić D., & Grobelnik, M. (2010). A service oriented framework for natural language text enrichment. Informatica, 34(3), 307–313.

Trampuš, M., & Novak, B. (2012). Internals of an aggregated web news feed. Proceedings of 15th Multiconference on Information Society.

Ulčar, M., Žagar, A., Armendariz, C. S., Repar, A., Pollak, S., Purver, M., in Robnik-Šikonja, M. (2021). Evaluation of contextual embeddings on less-resourced languages. arXiv preprint arXiv:2107.10614. Pridobljeno s https://arxiv.org/pdf/2107.10614.pdf

Prenosi

Objavljeno

12. 09. 2023

Številka

Rubrika

Članki – Sklop 2: Jezikovni viri in tehnologije

Kako citirati

Kosem, I., Čibej, J., Dobrovoljc, K., Kuzman, T., & Ljubešić, N. (2023). Spremljevalni korpus Trendi in avtomatska kategorizacija. Slovenščina 2.0: Empirične, Aplikativne in Interdisciplinarne Raziskave, 11(1), 161-188. https://doi.org/10.4312/slo2.0.2023.1.161-188

Najbolj brani prispevki istega avtorja(jev)

1 2 3 4 > >>