Prilagoditev angleškega korpusa in sistema za odgovarjanje na vprašanja za slovenski jezik

Avtorji

  • Uroš Šmajdek Univerza v Ljubljani, Fakulteta za računalništvo in informatiko
  • Matjaž Zupanič Univerza v Ljubljani, Fakulteta za računalništvo in informatiko
  • Maj Zirkelbach Univerza v Ljubljani, Fakulteta za računalništvo in informatiko
  • Meta Jazbinšek Univerza v Ljubljani, Filozofska fakulteta

DOI:

https://doi.org/10.4312/slo2.0.2023.1.247-274

Ključne besede:

sistemi za odgovarjanje na vprašanja, strojno prevajanje, večjezični modeli

Povzetek

Pomanjkanje ustreznih podatkov za učenje je ena od ključnih težav pri razvoju slovenskih modelov za odgovarjanje na vprašanja (QA). Sodobna orodja za strojno prevajanje lahko to težavo rešijo, vendar pa se pri njihovi uporabi soočimo z novih izzivom: odgovori se morajo natančno ujemati z deli danega konteksta, kjer ta odgovor je, saj model odgovorov ne generira, temveč le išče. Kot rešitev predlagamo metodo, kjer odgovore prevajamo skupaj s kontekstom, kar poveča verjetnost, da bo odgovor preveden v enaki obliki. Učinkovitost te metode ocenjujemo na naboru podatkov SQuAD 2.0, prevedenem z uporabo storitev eTranslation in Google Cloud, kjer se z njeno uporabo delež neujemanj odgovora in konteksta zmanjša s 56 % na 7 %. Prevedene podatke nato ocenimo z uporabo različnih QA modelov, ki temeljijo na arhitekturi transformer, in preučimo razlike med podatkovnimi nizi in konfiguracijami modelov. Da zagotovimo čim bolj realistične rezultate, modele testiramo na človeških prevodih majhnega deleža izvirne zbirke podatkov. Rezultati kažejo, da se glavne prednosti uporabe strojno prevedenih podatkov pokažejo pri natančnem prilagajanju (angl. fine-tuning) manjših večjezičnih modelov in enojezičnih modelov. Večjezični CroSloEngual BERT model je na primer dosegel 70,2 % točnih ujemanj pri testiranju na slovenskih podatkih v primerjavi s 73,3 % točnih ujemanj pri testiranju na angleških podatkih. Medtem ko so bili rezultati pri večjih modelih podobni, pri čemer je RemBERT dosegel 77,9 % točnih ujemanj na slovenskih podatkih v primerjavi z 81,1 % na angleških podatkih, so se ti obnesli podobno tudi pri natančnem prilagajanju na angleških podatkih, kar pomeni, da jih strojno prevedeni podatki niso bistveno izboljšali.

Prenosi

Podatki o prenosih še niso na voljo.

Literatura

Arnejšek, M., & Unk, A. (2020). Multidimensional assessment of the eTranslation output for English–Slovene. Proceedings of the 22nd Annual Conference of the European Association for Machine Translation (pp. 383–392). Lisboa: European Association for Machine Translation. Retrieved from https://aclanthology.org/2020.eamt-1.41

Chung, H. W., Févry, T., Tsai, H., Johnson, M., & Ruder, S. (2021). Rethinking Embedding Coupling in Pre-trained Language Models. International Conference on Learning Representations.

Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., . . ., & Stoyanov, V. (2020). Unsupervised Cross-lingual Representation Learning at Scale. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (pp. 8440–8451). Online: Association for Computational Linguistics. doi:10.18653/v1/2020.acl-main.747

Čeh, I., & Ojsteršek, M. (2009). Developing a question answering system for the Slovene language. WSEAS Transaction on Information science and applications.

Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, (Vol. 1, pp. 4171–4186). Minneapolis: Association for Computational Linguistics. doi: 10.18653/v1/N19-1423

European Commission. (2020). CEF Digital eTranslation. CEF Digital eTranslation.

Koehn, P., & Knowles, R. (2017). Six Challenges for Neural Machine Translation. In Proceedings of the First Workshop on Neural Machine Translation (pp. 28–39). Vancouver: Association for Computational Linguistics. doi: 10.18653/v1/W17-3204

Kwiatkowski, T., Palomaki, J., Redfield, O., Collins, M., Parikh, A., Alberti, C., . . ., & Petrov, S. (2019). Natural Questions: a Benchmark for Question Answering Research. Transactions of the Association of Computational Linguistics.

Lample, G., & Conneau, A. (2019). Cross-lingual Language Model Pretraining. Advances in Neural Information Processing Systems (NeurIPS).

Lan, Z., Chen, M., Goodman, S., Gimpel, K., Sharma, P., & Soricut, R. (2020). ALBERT: A Lite BERT for Self-supervised Learning of Language Representations. International Conference on Learning Representations. Retrieved from https://openreview.net/forum?id=H1eA7AEtvS

Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., . . ., & Stoyanov, V. (2019). RoBERTa: A robustly optimized BERT pretraining approach. arXiv:1907.11692.

Ljubešić, N., & Dobrovoljc, K. (2019). What does Neural Bring? Analysing Improvements in Morphosyntactic Annotation and Lemmatisation of Slovenian, Croatian and Serbian. In Proceedings of the 7th Workshop on Balto-Slavic Natural Language Processing (pp. 29–34). Florence: Association for Computational Linguistics. doi: 10.18653/v1/W19-3704

Martin, L., Muller, B., Ortiz Suárez, P. J., Dupont, Y., Romary, L., de la Clergerie, É., . . ., & Sagot, B. (2020). CamemBERT: a Tasty French Language Model. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (pp. 7203–7219). Online: Association for Computational Linguistics. Retrieved from https://www.aclweb.org/anthology/2020.acl-main.645

Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., . . ., & Liu, P. J. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. Journal of Machine Learning Research, 21, 1–67. Retrieved from http://jmlr.org/papers/v21/20-074.html

Rajpurkar, P., Jia, R., & Liang, P. (2018). Know What You Don’t Know: Unanswerable Questions for SQuAD. doi: 10.48550/ARXIV.1806.03822

Ulčar, M., & Robnik-Šikonja, M. (2020). Finest BERT and CroSloEngual BERT. International Conference on Text, Speech, and Dialogue (pp. 104–111).

Ulčar, M., & Robnik-Šikonja, M. (2021). SloBERTa: Slovene monolingual large pretrained masked language model. In Proceedings of Data Mining and Data Warehousing, SiKDD.

Virtanen, A., Kanerva, J., Ilo, R., Luoma, J., Luotolahti, J., Salakoski, T., . . ., & Pyysalo, S. (2019). Multilingual is not enough: BERT for Finnish. arXiv preprint arXiv:1912.07076.

Woods, W. A., & WOODS, W. A. (1977). Lunar rocks in natural English: Explorations in natural language question answering.

Xue, L., Constant, N., Roberts, A., Kale, M., Al-Rfou, R., Siddhant, A., . . ., & Raffel, C. (2021). mT5: A Massively Multilingual Pre-trained Text-to-Text Transformer. Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (pp. 483–498). Online: Association for Computational Linguistics. doi: 10.18653/v1/2021.naacl-main.41

Yang, Z., Dai, Z., Yang, Y., Carbonell, J., Salakhutdinov, R. R., & Le, Q. V. (2019). Xlnet: Generalized autoregressive pretraining for language understanding. Advances in neural information processing systems, 32.

Zupanič, M., Zirkelbach, M., Šmajdek, U., & Jazbinšek, M. (2022). Preparing a corpus and a question answering system for Slovene. In D. Fišer & T. Erjavec (Eds.), Jezikovne tehnologije in digitalna humanistika: zbornik konference (pp. 353–359). Ljubljana, Inštitut za novejšo zgodovino. Retrieved from https://nl.ijs.si/jtdh22/pdf/JTDH2022_Proceedings.pdf

Objavljeno

12. 09. 2023

Številka

Rubrika

Članki – Sklop 2: Jezikovni viri in tehnologije

Kako citirati

Šmajdek, U., Zupanič, M., Zirkelbach, M., & Jazbinšek, M. (2023). Prilagoditev angleškega korpusa in sistema za odgovarjanje na vprašanja za slovenski jezik. Slovenščina 2.0: Empirične, Aplikativne in Interdisciplinarne Raziskave, 11(1), 247-274. https://doi.org/10.4312/slo2.0.2023.1.247-274