Pomembnost realistične evalvacije

Primer popravkov sklona in števila v slovenščini z velikim jezikovnim modelom

Avtorji

  • Timotej Petrič Univerza v Ljubljani, Fakulteta za računalništvo in informatiko
  • Špela Arhar Holdt Univerza v Ljubljani, Filozofska fakulteta; Univerza v Ljubljani, Fakulteta za računalništvo in informatiko
  • Marko Robnik-Šikonja Univerza v Ljubljani, Fakulteta za računalništvo in informatiko

DOI:

https://doi.org/10.4312/slo2.0.2024.1.106-130

Ključne besede:

strojno slovnično pregledovanje, slovnični sklon, slovnično število, veliki jezikovni modeli, evalvacija

Povzetek

Med napake pri pisanju v standardni slovenščini sodi raba neustreznega slovničnega sklona ali števila. S pomočjo velikega jezikovnega modela SloBERTa smo razvili novo metodologijo za strojno prepoznavo tovrstnih težav, ki smo jo preizkusili na neustrezni rabi tožilnika namesto rodilnika in množine namesto dvojine. Za vrednotenje in spreminjanje besednih oblik v vhodnih povedih smo uporabili standardna orodja za obdelavo naravnega jezika, kot sta oblikoskladenjski označevalnik CLASSLA-Stanza in leksikon besednih oblik Sloleks. Predlagani popravki temeljijo na statistiki besednih oblik pri uporabi napovedovanja maskirane besede z velikim jezikovnim modelom. Zaradi pomanjkanja zadostne količine učnih podatkov smo napovedne modele učili na umetno generiranih napakah. Uspešnost strojnega popravljanja smo najprej ovrednotili na umetnih množicah in korpusu Lektor, kasneje pa še na novoustvarjeni evalvacijski množici Šolar-Eval. Evalvacija na prvih dveh množicah je pokazala visoko uspešnost razvite metodologije (zaznanih več kot 90 % napačno nastavljenih besed), Šolar-Eval pa je razkril mnogo slabšo uspešnost na realističnih podatkih (zaznanih le 29,5 % težav tipa rodilnik-tožilnik in 11,4 % težav tipa dvojina-množina). V celoti rezultati kažejo na nevarnost pretiranega prilagajanja podatkovnim množicam in pomembnost evalvacije na ciljno grajenih avtentičnih podatkih, ki pa so za slovenščino še vedno pomanjkljivi.

Prenosi

Podatki o prenosih še niso na voljo.

Literatura

Arhar Holdt, Š., Rozman, T., Stritar Kučuk, M., Krek, S., Krapš Vodopivec, I., Stabej, M., Pori, E., …, & Kosem, I. (2022a). Developmental corpus Šolar 3.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1589

Arhar Holdt, Š., Rozman, T., Stritar Kučuk, M., Krek, S., Krapš Vodopivec, I., Stabej, M., Pori, E., …, & Kosem, I. (2022). Frequency list of language problems from Šolar 3.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1716

Arhar Holdt, Š., Gantar, P., Bon, M., Gapsa, M., Lavrič, P., & Klemen, M. (2023). Dataset for evaluation of Slovene spell- and grammar-checking tools Šolar-Eval 1.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1902

Božič, M. (2020). Globoke nevronske mreže za postavljanje vejic v slovenskem jeziku (Diplomska naloga). Ljubljana: Univerza v Ljubljani, Fakulteta za računalništvo in informatiko. Pridobljeno s https://repozitorij.uni-lj.si/IzpisGradiva.php?id=119034&lang=slv

Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., Neelakantan, …, Askell, A., idr. (2020). Language models are few-shot learners. Advances in neural information processing systems, 33, 1877–1901.

Bryant, C., Yuan, Z., Qorib, M. R., Cao, H., Ng, H. T., & Briscoe, T. (2023). Grammatical Error Correction: A Survey of the State of the Art. Computational Linguistics, 49(3), 643–701. doi: 10.1162/coli_a_00478

Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers) (str. 4171–4186). doi: 10.18653/v1/N19-1423

Dobrovoljc, K., Krek, S., & Erjavec, T. (2015). Leksikon besednih oblik Sloleks in smernice njegovega razvoja. V V. Gorjanc, P. Gantar, I. Kosem & S. Krek (ur.), Slovar sodobne slovenščine: problemi in rešitve (str. 80–105). Ljubljana: Znanstvena založba Filozofske fakultete Univerze v Ljubljani. Pridobljeno s https://ebooks.uni-lj.si/ZalozbaUL/catalog/view/15/47/489

Dobrovoljc, K., Krek, S., Holozan, P., Erjavec, T., Romih, M., Arhar Holdt, Š., Čibej, J., Krsnik, L., & Robnik-Šikonja, M. (2019). Morphological lexicon Sloleks 2.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1230

Erjavec, T. (2017). MULTEXT-East. V Handbook of Linguistic Annotation (str. 441–462). Springer.

Erjavec, T., Fišer, D., Ljubešić, N., Ferme, M., Borovič, M., Boškovič, B., Ojsteršek, M., & Hrovat, G. (2019). Corpus of Academic Slovene KAS 1.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1244

Fang, T., Yang, S., Lan, K., Wong, D. F., Hu, J., Chao, L. S., & Zhang, Y. (2023). Is ChatGPT a highly fluent grammatical error correction system? A comprehensive evaluation. ArXiv. doi: 10.48550/arXiv.2304.01746

Gal, Y., & Ghahramani, Z. (2016). Dropout as a Bayesian approximation: Representing model uncertainty in deep learning. International conference on machine learning, 1050–1059.

Gantar, P., Bon, M., Gapsa, M., & Holdt, Š. A. (2023). Šolar-Eval: Evalvacijska množica za strojno popravljanje jezikovnih napak v slovenskih besedilih. Jezik in slovstvo, 68(4), 89–108. doi: 10.4312/jis.68.4.89-108

Jurafsky, D., & Martin, J. H. (2024). Speech and Language Processing (3rd ed. draft). Pridobljeno s https://web.stanford.edu/~jurafsky/slp3/ed3book.pdf

Krek, S., Holdt, Š. A., Erjavec, T., Čibej, J., Repar, A., Gantar, P., Ljubešić, N., Kosem, I., & Dobrovoljc, K. (2020). Gigafida 2.0: The reference corpus of written standard Slovene. In N. Calzolari et al. (Eds.), Proceedings of the Twelfth language resources and evaluation conference, LREC 2020, Marseille, France (str. 3340–3345). The European Language Resources Association (ELRA).

Krek, S. (2023). Language Report Slovenian. In European Language Equality: A Strategic Agenda for Digital Language Equality (str. 211–214). Cham: Springer International Publishing.

Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., & Stoyanov, V. (2019). RoBERTa: A Robustly Optimized BERT Pretraining Approach. ArXiv. doi: 10.48550/arXiv.1907.11692

Ljubešić, N., & Dobrovoljc, K. (2019). What does Neural Bring? Analysing Improvements in Morphosyntactic Annotation and Lemmatisation of Slovenian, Croatian and Serbian. Proceedings of the 7th Workshop on Balto-Slavic Natural Language Processing, 29–34. doi: 10.18653/v1/W19-3704

Miok, K., Škrlj, B., Zaharie, D., & Robnik-Šikonja, M. (2022). To BAN or not to BAN: Bayesian attention networks for reliable hate speech detection. Cognitive Computation, 14(1), 353–371.

Mokotar, R. (2023). Obvladovanje slovničnih napak v šolskih pisnih izdelkih z metodami za obdelavo naravnega jezika (Diplomska naloga). Ljubljana: Univerza v Ljubljani, Fakulteta za računalništvo in informatiko. Pridobljeno s https://repozitorij.uni-lj.si/IzpisGradiva.php?id=144932&lang=slv

Pančur, A., Erjavec, T., Ojsteršek, M., Šorn, M., & Blaj Hribar, N. (2020). Slovenian parliamentary corpus (1990-2018) siParl 2.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1300

Popič, D. (2014). Revising translation revision in Slovenia. New Horizons in Translation Research and Education 2, 72–89. University of Eastern Finland Joensuu.

Qi, P., Zhang, Y., Zhang, Y., Bolton, J., & Manning, C. D. (2020). Stanza: A Python Natural Language Processing Toolkit for Many Human Languages. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations.

Rizvič, M. (2020). Avtomatsko postavljanje ločil v surovem tekstu (Magistrsko delo). Ljubljana: Univerza v Ljubljani, Fakulteta za računalništvo in informatiko. Pridobljeno s https://repozitorij.uni-lj.si/IzpisGradiva.php?id=117687&lang=slv

Romih, M., & Holozan, P. (2002). Infrastruktura za razvoj jezikovnih tehnologij-korpus FIDA in sistem ASES. V T. Erjavec, J. Žganec Gros (ur.), Jezikovne tehnologije, 14.–15. oktober, Ljubljana, Slovenija (str. 166). Pridobljeno s http://nl.ijs.si/isjt02/zbornik/sdjt02-D02amebis.pdf

Rozovskaya, A., Roth, D., & Srikumar, V. (2014). Correcting grammatical verb errors. Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics (str. 358–367).

Touvron, H., Lavril, T., Izacard, G., Martinet, X., Lachaux, M.-A., Lacroix, T., …, Azhar, F., idr. (2023). Llama: Open and efficient foundation language models. ArXiv. doi: 10.48550/arXiv.2302.13971

Ulčar, M., & Robnik-Šikonja, M. (2021a). SloBERTa: Slovene monolingual large pretrained masked language model. Proceedings of Slovenian KDD Conference, SiKDD 2021, part of Information Society.

Ulčar, M., & Robnik-Šikonja, M. (2021b). Slovenian RoBERTa contextual embeddings model: SloBERTa 2.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1397

Ulčar, M., & Robnik-Šikonja, M. (2023). Sequence to sequence pretraining for a less-resourced Slovenian language. Frontiers in Artificial Intelligence, 6. doi: 10.3389/frai.2023.932519

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.

Velikonja, N. (2021). Segmentacija in postavljanje končnih ločil v slovenskih stavkih z modeli tipa BERT (Diplomska naloga). Ljubljana: Univerza v Ljubljani, Fakulteta za računalništvo in informatiko. Pridobljeno s https://repozitorij.uni-lj.si/IzpisGradiva.php?id=130323&lang=slv

Wu, H., Wang, W., Wan, Y., Jiao, W., & Lyu, M. (2023). ChatGPT or Grammarly? Evaluating ChatGPT on grammatical error correction benchmark. ArXiv. doi: 10.48550/arXiv.2303.13648

Zhang, S., Huang, H., Liu, J., & Li, H. (2020). Spelling Error Correction with Soft-Masked BERT. V D. Jurafsky, J. Chai, N. Schluter & J. Tetreault (ur.), Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, July 2020 (str. 882–890). Association for Computational Linguistics. Pridobljeno s https://aclanthology.org/2020.acl-main.pdf

Prenosi

Objavljeno

23. 12. 2024

Številka

Rubrika

Razprave

Kako citirati

Petrič, T., Arhar Holdt, Špela, & Robnik-Šikonja, M. (2024). Pomembnost realistične evalvacije: Primer popravkov sklona in števila v slovenščini z velikim jezikovnim modelom. Slovenščina 2.0: Empirične, Aplikativne in Interdisciplinarne Raziskave, 12(1), 106-130. https://doi.org/10.4312/slo2.0.2024.1.106-130

Najbolj brani prispevki istega avtorja(jev)

1 2 > >>