Pomembnost realistične evalvacije
Primer popravkov sklona in števila v slovenščini z velikim jezikovnim modelom
DOI:
https://doi.org/10.4312/slo2.0.2024.1.106-130Ključne besede:
strojno slovnično pregledovanje, slovnični sklon, slovnično število, veliki jezikovni modeli, evalvacijaPovzetek
Med napake pri pisanju v standardni slovenščini sodi raba neustreznega slovničnega sklona ali števila. S pomočjo velikega jezikovnega modela SloBERTa smo razvili novo metodologijo za strojno prepoznavo tovrstnih težav, ki smo jo preizkusili na neustrezni rabi tožilnika namesto rodilnika in množine namesto dvojine. Za vrednotenje in spreminjanje besednih oblik v vhodnih povedih smo uporabili standardna orodja za obdelavo naravnega jezika, kot sta oblikoskladenjski označevalnik CLASSLA-Stanza in leksikon besednih oblik Sloleks. Predlagani popravki temeljijo na statistiki besednih oblik pri uporabi napovedovanja maskirane besede z velikim jezikovnim modelom. Zaradi pomanjkanja zadostne količine učnih podatkov smo napovedne modele učili na umetno generiranih napakah. Uspešnost strojnega popravljanja smo najprej ovrednotili na umetnih množicah in korpusu Lektor, kasneje pa še na novoustvarjeni evalvacijski množici Šolar-Eval. Evalvacija na prvih dveh množicah je pokazala visoko uspešnost razvite metodologije (zaznanih več kot 90 % napačno nastavljenih besed), Šolar-Eval pa je razkril mnogo slabšo uspešnost na realističnih podatkih (zaznanih le 29,5 % težav tipa rodilnik-tožilnik in 11,4 % težav tipa dvojina-množina). V celoti rezultati kažejo na nevarnost pretiranega prilagajanja podatkovnim množicam in pomembnost evalvacije na ciljno grajenih avtentičnih podatkih, ki pa so za slovenščino še vedno pomanjkljivi.
Prenosi
Literatura
Arhar Holdt, Š., Rozman, T., Stritar Kučuk, M., Krek, S., Krapš Vodopivec, I., Stabej, M., Pori, E., …, & Kosem, I. (2022a). Developmental corpus Šolar 3.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1589
Arhar Holdt, Š., Rozman, T., Stritar Kučuk, M., Krek, S., Krapš Vodopivec, I., Stabej, M., Pori, E., …, & Kosem, I. (2022). Frequency list of language problems from Šolar 3.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1716
Arhar Holdt, Š., Gantar, P., Bon, M., Gapsa, M., Lavrič, P., & Klemen, M. (2023). Dataset for evaluation of Slovene spell- and grammar-checking tools Šolar-Eval 1.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1902
Božič, M. (2020). Globoke nevronske mreže za postavljanje vejic v slovenskem jeziku (Diplomska naloga). Ljubljana: Univerza v Ljubljani, Fakulteta za računalništvo in informatiko. Pridobljeno s https://repozitorij.uni-lj.si/IzpisGradiva.php?id=119034&lang=slv
Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., Neelakantan, …, Askell, A., idr. (2020). Language models are few-shot learners. Advances in neural information processing systems, 33, 1877–1901.
Bryant, C., Yuan, Z., Qorib, M. R., Cao, H., Ng, H. T., & Briscoe, T. (2023). Grammatical Error Correction: A Survey of the State of the Art. Computational Linguistics, 49(3), 643–701. doi: 10.1162/coli_a_00478
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers) (str. 4171–4186). doi: 10.18653/v1/N19-1423
Dobrovoljc, K., Krek, S., & Erjavec, T. (2015). Leksikon besednih oblik Sloleks in smernice njegovega razvoja. V V. Gorjanc, P. Gantar, I. Kosem & S. Krek (ur.), Slovar sodobne slovenščine: problemi in rešitve (str. 80–105). Ljubljana: Znanstvena založba Filozofske fakultete Univerze v Ljubljani. Pridobljeno s https://ebooks.uni-lj.si/ZalozbaUL/catalog/view/15/47/489
Dobrovoljc, K., Krek, S., Holozan, P., Erjavec, T., Romih, M., Arhar Holdt, Š., Čibej, J., Krsnik, L., & Robnik-Šikonja, M. (2019). Morphological lexicon Sloleks 2.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1230
Erjavec, T. (2017). MULTEXT-East. V Handbook of Linguistic Annotation (str. 441–462). Springer.
Erjavec, T., Fišer, D., Ljubešić, N., Ferme, M., Borovič, M., Boškovič, B., Ojsteršek, M., & Hrovat, G. (2019). Corpus of Academic Slovene KAS 1.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1244
Fang, T., Yang, S., Lan, K., Wong, D. F., Hu, J., Chao, L. S., & Zhang, Y. (2023). Is ChatGPT a highly fluent grammatical error correction system? A comprehensive evaluation. ArXiv. doi: 10.48550/arXiv.2304.01746
Gal, Y., & Ghahramani, Z. (2016). Dropout as a Bayesian approximation: Representing model uncertainty in deep learning. International conference on machine learning, 1050–1059.
Gantar, P., Bon, M., Gapsa, M., & Holdt, Š. A. (2023). Šolar-Eval: Evalvacijska množica za strojno popravljanje jezikovnih napak v slovenskih besedilih. Jezik in slovstvo, 68(4), 89–108. doi: 10.4312/jis.68.4.89-108
Jurafsky, D., & Martin, J. H. (2024). Speech and Language Processing (3rd ed. draft). Pridobljeno s https://web.stanford.edu/~jurafsky/slp3/ed3book.pdf
Krek, S., Holdt, Š. A., Erjavec, T., Čibej, J., Repar, A., Gantar, P., Ljubešić, N., Kosem, I., & Dobrovoljc, K. (2020). Gigafida 2.0: The reference corpus of written standard Slovene. In N. Calzolari et al. (Eds.), Proceedings of the Twelfth language resources and evaluation conference, LREC 2020, Marseille, France (str. 3340–3345). The European Language Resources Association (ELRA).
Krek, S. (2023). Language Report Slovenian. In European Language Equality: A Strategic Agenda for Digital Language Equality (str. 211–214). Cham: Springer International Publishing.
Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., & Stoyanov, V. (2019). RoBERTa: A Robustly Optimized BERT Pretraining Approach. ArXiv. doi: 10.48550/arXiv.1907.11692
Ljubešić, N., & Dobrovoljc, K. (2019). What does Neural Bring? Analysing Improvements in Morphosyntactic Annotation and Lemmatisation of Slovenian, Croatian and Serbian. Proceedings of the 7th Workshop on Balto-Slavic Natural Language Processing, 29–34. doi: 10.18653/v1/W19-3704
Miok, K., Škrlj, B., Zaharie, D., & Robnik-Šikonja, M. (2022). To BAN or not to BAN: Bayesian attention networks for reliable hate speech detection. Cognitive Computation, 14(1), 353–371.
Mokotar, R. (2023). Obvladovanje slovničnih napak v šolskih pisnih izdelkih z metodami za obdelavo naravnega jezika (Diplomska naloga). Ljubljana: Univerza v Ljubljani, Fakulteta za računalništvo in informatiko. Pridobljeno s https://repozitorij.uni-lj.si/IzpisGradiva.php?id=144932&lang=slv
Pančur, A., Erjavec, T., Ojsteršek, M., Šorn, M., & Blaj Hribar, N. (2020). Slovenian parliamentary corpus (1990-2018) siParl 2.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1300
Popič, D. (2014). Revising translation revision in Slovenia. New Horizons in Translation Research and Education 2, 72–89. University of Eastern Finland Joensuu.
Qi, P., Zhang, Y., Zhang, Y., Bolton, J., & Manning, C. D. (2020). Stanza: A Python Natural Language Processing Toolkit for Many Human Languages. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations.
Rizvič, M. (2020). Avtomatsko postavljanje ločil v surovem tekstu (Magistrsko delo). Ljubljana: Univerza v Ljubljani, Fakulteta za računalništvo in informatiko. Pridobljeno s https://repozitorij.uni-lj.si/IzpisGradiva.php?id=117687&lang=slv
Romih, M., & Holozan, P. (2002). Infrastruktura za razvoj jezikovnih tehnologij-korpus FIDA in sistem ASES. V T. Erjavec, J. Žganec Gros (ur.), Jezikovne tehnologije, 14.–15. oktober, Ljubljana, Slovenija (str. 166). Pridobljeno s http://nl.ijs.si/isjt02/zbornik/sdjt02-D02amebis.pdf
Rozovskaya, A., Roth, D., & Srikumar, V. (2014). Correcting grammatical verb errors. Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics (str. 358–367).
Touvron, H., Lavril, T., Izacard, G., Martinet, X., Lachaux, M.-A., Lacroix, T., …, Azhar, F., idr. (2023). Llama: Open and efficient foundation language models. ArXiv. doi: 10.48550/arXiv.2302.13971
Ulčar, M., & Robnik-Šikonja, M. (2021a). SloBERTa: Slovene monolingual large pretrained masked language model. Proceedings of Slovenian KDD Conference, SiKDD 2021, part of Information Society.
Ulčar, M., & Robnik-Šikonja, M. (2021b). Slovenian RoBERTa contextual embeddings model: SloBERTa 2.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1397
Ulčar, M., & Robnik-Šikonja, M. (2023). Sequence to sequence pretraining for a less-resourced Slovenian language. Frontiers in Artificial Intelligence, 6. doi: 10.3389/frai.2023.932519
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.
Velikonja, N. (2021). Segmentacija in postavljanje končnih ločil v slovenskih stavkih z modeli tipa BERT (Diplomska naloga). Ljubljana: Univerza v Ljubljani, Fakulteta za računalništvo in informatiko. Pridobljeno s https://repozitorij.uni-lj.si/IzpisGradiva.php?id=130323&lang=slv
Wu, H., Wang, W., Wan, Y., Jiao, W., & Lyu, M. (2023). ChatGPT or Grammarly? Evaluating ChatGPT on grammatical error correction benchmark. ArXiv. doi: 10.48550/arXiv.2303.13648
Zhang, S., Huang, H., Liu, J., & Li, H. (2020). Spelling Error Correction with Soft-Masked BERT. V D. Jurafsky, J. Chai, N. Schluter & J. Tetreault (ur.), Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, July 2020 (str. 882–890). Association for Computational Linguistics. Pridobljeno s https://aclanthology.org/2020.acl-main.pdf
Prenosi
Objavljeno
Številka
Rubrika
Licenca
Avtorske pravice (c) 2024 Timotej Petrič, Špela Arhar Holdt, Marko Robnik-Šikonja

To delo je licencirano pod Creative Commons Priznanje avtorstva-Deljenje pod enakimi pogoji 4.0 mednarodno licenco.