Govoriš nevronsko?
Kako ljudje razumemo jezik sodobnih strojnih prevajalnikov
DOI:
https://doi.org/10.4312/slo2.0.2023.1.138-159Ključne besede:
nerevidirani strojni prevodi, evalvacija strojnih prevajalnikov, razumljivost pri končnih bralcih, Google Translate, eTranslation, DeepLPovzetek
Namen prispevka je predstaviti raziskavo preverjanja razumljivosti nerevidiranih strojno prevedenih spletnih besedil. Primarni udeleženci v raziskavi so bili splošni bralci in ne izurjeni prevajalci ali popravljalci strojnih prevodov. Gre za prvo tovrstno raziskavo, ki je bila izvedena za slovenski jezik. Cilj raziskave je bil preveriti, v kolikšni meri so nerevidirani strojni prevodi razumljivi splošnemu bralstvu, pri čemer sem se posvetil tudi vplivu besedilnega in slikovnega konteksta. Preverjal sem prevode prevajalnikov Google Translate in eTranslation. Raziskava je bila izvedena z anketo, v kateri so udeleženci odgovarjali na vprašanja, ki so preverjala razumevanje spremljajočega besedilnega segmenta, v katerem je bila napaka. Rezultati nudijo vpogled v trenutno stopnjo razvoja strojnih prevajalnikov, ne z vidika storilnosti pri njihovem popravljanju, ampak z vidika, koliko jih razume ciljno bralstvo. Na koncu članka nudim novo evalvacijo izvornih segmentov, ki sem jih v začetku leta 2023 ponovno prevedel, tokrat še s prevajalnikom DeepL.
Prenosi
Literatura
Bordon. D. (2022). Govoriš nevronsko? Kako ljudje razumemo jezik sodobnih strojnih prevajalnikov. V D. Fišer & T. Erjavec (ur.), Zbornik konference Jezikovne tehnologije in digitalna humanistika (str. 286–291). Ljubljana: Inštitut za novejšo zgodovino. Pridobljeno s https://nl.ijs.si/jtdh22/pdf/JTDH2022_Proceedings.pdf
Bordon, D. (2021). »Razumevati nevronščino: Kako si ljudje razlagamo jezik strojnih prevajalnikov«. Magistrsko delo. Ljubljana: Univerza v Ljubljani. Pridobljeno s https://repozitorij.uni-lj.si/IzpisGradiva.php?id=125328
Castilho, S., & Guerberof Arenas, A. (2018). Reading Comprehension of Machine Translation Output: What Makes for a Better Read?. V J. A. Perez-Ortiz, F. Sanchez-Martinez, M. Espla-Gomis, M. Popovič, C. Rico, A. Martins, J. Van den Bogaert, M. L. Forcada (ur.), Proceedings of the 21st Annual Conference of the European Association for Machine Translation (str. 79–88). Alacant, Španija. Pridobljeno s http://doras.dcu.ie/23071/
Donaj, G., & Sepesy Maučec, M. (2018). Prehod iz statističnega strojnega prevajanja na prevajanje z nevronskimi omrežji za jezikovni par slovenščina-angleščina. V D. Fišer & A. Pančur (ur.), Zbornik konference Jezikovne tehnologije in digitalna humanistika 2018 (str. 62–68). Ljubljana: Filozofska fakulteta, Inštitut za novejšo zgodovino. Pridobljeno s http://www.sdjt.si/wp/wp-content/uploads/2018/09/JTDH-2018_Donaj-et-al_Prehod-iz-statisticnega-strojnega-prevajanja-na-prevajanje-z-nevronskimi-omrezji-za-jezikovni-par-slovenscina-anglescina.pdf
Evropska komisija (2020). European Language Industry Survey 2020 Before & After Covid-19. Pridobljeno s https://ec.europa.eu/info/sites/default/files/2019_language_industry_survey_report.pdf
Koehn, P., & Knowles, R. (2017). Six challenges for neural machine translation. V Proceedings of the First Workshop on Neural Machine Translation (str. 28–39). Vancouver, Canada: Association for Computational Linguistics. Pridobljeno s https://arxiv.org/pdf/1706.03872.pdf DOI: https://doi.org/10.18653/v1/W17-3204
Lala, C., & Specia, L. (2018). Multimodal Lexical Translation. V Proceedings of the 11th international conference on language resources and evaluation (LREC) (str. 3810–3817). Miyazaki, Japonska: European Language Resources Association (ELRA). Pridobljeno s https://www.aclweb.org/anthology/L18-1602/
Lelner, Z. (2022). Machine Translation vs. Machine Translation Post-editing: Which One to Use and When?. Pridobljeno s https://blog.memoq.com/machine-translation-vs.-machine-translation-post-editing-which-one-to-use-and-when
Liu, J. (XX) Multimodal Machine Translation. Pridobljeno s https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9547270
Macken, L., & Ghysele, I. (2018). Measuring Comprehension and User Perception of Neural Machine Translated Texts: A Pilot Study. V Translating and the Computer 40 (TC40), Proceedings (str. 120–126). Geneva: Editions Tradulex. Pridobljeno s https://biblio.ugent.be/publication/8580951
Macken, L., Van Brussel, L., & Daems, J. (2019). NMT’s wonderland where people turn into rabbits. A study on the comprehensibility of newly invented words in NMT output. V Computational Linguistics in the Netherlands Journal, 9, 67–80. Pridobljeno s https://www.clinjournal.org/clinj/article/view/93
Martindale, M. J., & Carpuat, M. (2018). Fluency Over Adequacy: A Pilot Study in Measuring User Trust in Imperfect MT. Pridobljeno s https://arxiv.org/abs/1802.06041
Nunes Vieira, L., O’Sullivan, C., Zhang, X., & O’Hagan, M. (2022). Machine translation in society: insights from UK users. Language Resources & Evaluation. Pridobljeno s https://doi.org/10.1007/s10579-022-09589-1 DOI: https://doi.org/10.1007/s10579-022-09589-1
Popović, M. (2020). Relations between comprehensibility and adequacy errors in machine translation output. V R. Fernández & T. Linzen, Proceedings of the 24th Conference on Computational Natural Language Learning (CoNLL 2020) (str. 256–264). Pridobljeno s https://aclanthology.org/2020.conll-1.19.pdf DOI: https://doi.org/10.18653/v1/2020.conll-1.19
Sennrich, R., Haddow, B., & Birch, A. (2016). Neural Machine Translation of Rare Words with Subword Units. Pridobljeno s https://arxiv.org/abs/1508.07909 DOI: https://doi.org/10.18653/v1/P16-1162
Sulubacak, U., Caglayan, O., Grönroos, S.-A., Rouhe, A., Elliott, D., Specia, L., Tiedemann, J. (2020). Multimodal machine translation through visuals and speech. Pridobljeno s https://arxiv.org/abs/1911.12798 DOI: https://doi.org/10.1007/s10590-020-09250-0
Thi-Vinh, N., Ha, T.-L., Nguyen, P.-T., & Nguyen, L.-M. (2019). Overcoming the Rare Word Problem for Low-Resource Language Pairs in Neural Machine Translation. V Proceedings of the 6th Workshop on Asian Translation (str. 207–214). Hong Kong, Kitajska: Association for Computational Linguistics. Pridobljeno s https://arxiv.org/abs/1910.03467
Voroniak, D. (2022). Post-Editing of Machine Translation: Best Practices. Pridobljeno s https://blog.crowdin.com/2022/03/30/mt-post-editing/
Zdarek, D. Machine Translation Post-editing Best Practices. Pridobljeno s https://www.memsource.com/blog/post-editing-machine-translation-best-practices/
Prenosi
Objavljeno
Kako citirati
Številka
Rubrike
Licenca
Avtorske pravice (c) 2023 David Bordon

To delo je licencirano pod Creative Commons Priznanje avtorstva-Deljenje pod enakimi 4.0 mednarodno licenco.
Prispevki v reviji Slovenščina 2.0 so dostopni po licenci Attribution-ShareAlike 4.0 International (CC BY-SA 4.0).
Tudi pri objavi prispevkov v reviji Slovenščina 2.0 velja licenca Attribution-ShareAlike 4.0 International (CC BY-SA 4.0). Po tej licenci avtorji obdržijo avtorske pravice, hkrati pa uporabnikom dovolijo reproduciranje, distribuiranje, dajanje v najem, javno priobčitev in predelavo avtorskega dela (tudi za komercialno uporabo in predelavo), če navedejo avtorja ter citirajo delo in ga širijo naprej pod istimi pogoji. Dovoljenje niti s strani avtorja niti s strani izdajatelja revije za vse to torej ni potrebno. Predelavo in nadgradnjo dela sme uporabnik distribuirati, dati v najem ali priobčiti javnosti le pod pogoji te iste licence, novejše različice te licence z istimi elementi, kot jih vsebuje ta licenca, ali z drugo nacionalno licenco Creative Commons, ki vsebuje iste elemente licence kot ta licenca.
Pri reviji Slovenščina 2.0 med avtorji in izdajateljem niso sklenjene nobene dodatne pogodbe ali dogovori, avtorji torej avtorske pravice in pravice nadaljnjega širjenja obdržijo brez omejitev.
Pri reviji Slovenščina 2.0 avtorjem dovoljujemo in jih spodbujamo, da svoje besedilo, ki je bilo objavljeno v reviji Slovenščina 2.0, objavijo še kje drugje na spletu (npr. v institucionalnih repozitorijih, na osebnih spletnih straneh), vendar s pripisom, v katerem je razvidno, da je naša revija besedilo objavila prva.