Označevanje jezikovnih napak v slovenščini kot neprvem jeziku
Splošna načela in praktični preizkus označevanja v korpusu KOST
DOI:
https://doi.org/10.4312/slo2.0.2025.1.24-57Ključne besede:
korpus usvajanja jezika, slovenščina kot drugi jezik, označevanje jezikovnih napak, taksonomija napak, študentsko deloPovzetek
V prispevku je opisano označevanje jezikovnih napak v korpusu slovenščine kot tujega jezika KOST 2.0. Predstavljena so izhodišča za označevanje napak, ki temeljijo na načelu minimalnega popravka in težijo k normi standardne slovenščine. Opisana in s primeri iz KOST-a, v katerem so bile napake označene na 24 % besedil, je prikazana taksonomija napak, ki ima 23 tipov napak, združenih v štiri osnovne kategorije (zapis, besedišče, oblika, skladnja). V praksi sta bila postopek označevanja napak in njihovo razvrščanje v kategorije preizkušena na študentih slovenistike, ki so v treh študijskih letih označili 197 korpusnih besedil. Delo so ocenili kot zanimivo in koristno, vendar so zaradi pomanjkljivega strokovnega znanja, pomanjkanja izkušenj s slovenščino kot tujim jezikom, površnosti in nagnjenosti k pretiranemu popravljanju besedil njihovi rezultati pretežno neustrezni.
Prenosi
Literatura
Anon. (2014). Slovar slovenskega knjižnega jezika. Ljubljana: SAZU in Inštitut za slovenski jezik Frana Ramovša ZRC SAZU.
Arhar Holdt, Š., Erjavec, T., Kosem, I., & Elena Volodina. (2024). Towards an ideal tool for learner error annotation. V N. Calzolari et al. (ur.), Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), Torino, Italia (str. 16392–16398). ELRA and ICCL. Pridobljeno s https://aclanthology.org/2024.lrec-main.1424.pdf
Arhar Holdt, Š., & Kosem, I. (2024). Šolar, the developmental corpus of Slovene. Language Resources and Evaluation. doi: 10.1007/s10579-024-09758-4.
Arhar Holdt, Š., Kosem, I., & Stritar Kučuk, M. (2022). Metode in orodja za lažjo pripravo korpusov usvajanja jezika. V N. Pirih Svetina & I. Ferbežar (ur.), Simpozij Obdobja 41: Na stičišču svetov: slovenščina kot drugi in tuji jezik. Ljubljana: Založba Univerze v Ljubljani. Pridobljeno s https://centerslo.si/wp-content/uploads/2022/11/Arhar-Holdt-et-al_Obdobja-41.pdf
Arhar Holdt, Špela, Lavrič, P., Roblek, R., & Goli, T. (2022). Kategorizacija učiteljskih popravkov: Smernice za označevanje korpusa Šolar. Pridobljeno s https://www.cjvt.si/prop/wp-content/uploads/sites/23/2023/11/Smernice-za-oznacevanje-korpusa-Solar-v1.1.pdf
Arhar Holdt, Š., Pori, E., & Kosem, I. (2023). Prihodnost korpusa Šolar. V Š. Arhar Holdt & S. Krek (ur.), Razvoj slovenščine v digitalnem okolju (str. 61–96). Ljubljana: Založba Univerze v Ljubljani. Pridobljeno s https://ebooks.uni-lj.si/ZalozbaUL/catalog/view/522/852/9442
Ellis, R. (1994). The Study of Second Language Acquisition. Oxford: Oxford University Press.
Gantar, P., Bon, M., Gapsa, M., & Arhar Holdt, Š. (2023). Šolar-Eval: Evalvacijska množica za strojno popravljanje jezikovnih napak v slovenskih besedilih. Jezik in slovstvo, 68(4), 89–108. doi: 10.4312/jis.68.4.89-108
Granger, S. (2003). Error-tagged learner corpora and CALL: A promising synergy. CALICO Journal, 20(3), 465–79.
Granger, S., Swallow, H., & Thewissen, J. (2022). The Louvain Error Tagging Manual Version 2.0. Louvain-la-Neuve: Centre for English Corpus Linguistics, Université catholique de Louvain.
James, C. (1998). Errors in Language Learning and Use: Exploring Error Analysis. London, New York: Longman.
Klemen, M., Arhar Holdt, Š., Pollak, S., Kosem, I., Pori, E., Gantar, P., & Knez, M. (2023). Building a CEFR-Labeled Core Vocabulary and Developing a Lexical Resource for Slovenian as a Second and Foreign Language. V M. Medveď idr. (ur.), Proceedings of the eLex conference: electronic lexicography in the 21st century (eLex 2023), Brno, 27–29 June 2023 (str. 664–78). Brno: Lexical Computing CZ. Pridobljeno s https://elex.link/elex2023/wp-content/uploads/118.pdf
Kranjc, S. (2023). Od medmrežnih pogovorov do ChatGPT-ja. V J. Vogel (ur.), 59. seminar slovenskega jezika, literature in kulture: slovenski jezik, literatura, kultura in digitalni svet(ovi) (str. 11–20). Ljubljana: Založba Univerze v Ljubljani.
Lenarčič, S. (2009). Bo kdo ustavil in popravil lektorski aparat?, Delo, 51/52.
Lüdeling, A., Walter, M., Kroymann, E., & Adolphs, P. (2005). Multi-Level Error Annotation in Learner Corpora. Pridobljeno s https://www.researchgate.net/publication/228352566_Multi-Level_Error_Annotation_in_Learner_Corpora
Mikelić Preradović, N. (2020). Označavanje pogrešaka u CroLTeC-u (računalnom učeničkom korpusu hrvatskog kao stranog jezika). Rasprave: Časopis Instituta za hrvatski jezik i jezikoslovlje, 46(2), 899–920.
Pirih Svetina, N. (2005). Slovenščina kot tuji jezik. Ljubljana: Izolit.
Rakhilina, E., Vyrenkova, A., Mustakimova, E., Ladygina, A., & Smirnov, I. (2016). Building a learner corpus for Russian. V E. Volodina idr. (ur.), Proceedings of the joint workshop on NLP for Computer Assisted Language Learning and NLP for Language Acquisition (str. 66–75). Umeå, Sweden: LiU Electronic Press. Pridobljeno s https://aclanthology.org/W16-6509/
Reznicek, M., Lüdeling, A., Krummes, C., Schwantuschke, F., Walter, M., Schmidt, K., Hirschmann, H., & Andreas, T. (2012). Das FALKO-Handbuch: Korpus Aufbau und Annotationen, Version 2.01. Berlin: Humboldt-Universität zu Berlin.
Rosen, A., Hana, J., Hladka, B., Jelinek, T., Škodova, S., & Štindlova, B. (2020). Compiling and annotating a learner corpus for a morphologically rich language: CzeSL, a corpus of non-native Czech. Praga: Karlova univerza.
Stritar Kučuk, M. (2012). Korpusi usvajanja tujega jezika. Ljubljana: Zveza društev Slavistično društvo Slovenije.
Stritar Kučuk, M. (2020). Modul Leto plus: Prvi korak do korpusa usvajanja slovenščine kot tujega jezika. V D. Fišer & T. Erjavec (ur.), Zbornik konference Jezikovne tehnologije in digitalna humanistika 2020 (str. 131–135). Ljubljana: Inštitut za novejšo zgodovino. Pridobljeno s http://nl.ijs.si/jtdh20/pdf/JT-DH_2020_StritarKucuk_Modul-Leto-plus%e2%80%93prvi-korak-do-korpusa-slovenscine-kot-tujega-jezika.pdf
Stritar Kučuk, M. (2022). KOST med korpusi usvajanja tujega jezika. V N. Pirih Svetina & I. Ferbežar (ur.), Simpozij Obdobja 41: Na stičišču svetov: slovenščina kot drugi in tuji jezik (str. 323–34). Ljubljana: Založba Univerze v Ljubljani.
Stritar Kučuk, M. (2023). Priročnik za označevanje napak.
Stritar Kučuk, M. (2024a). KOST 2.0: Predstavitev korpusa in potek označevanja jezikovnih napak. V Š. Arhar Holdt & T. Erjavec (ur.), Zbornik konference Jezikovne tehnologije in digitalna humanistika 2024 (str. 589–603). Ljubljana: Inštitut za novejšo zgodovino. Pridobljeno s https://www.sdjt.si/wp/wp-content/uploads/2024/09/JT-DH-2024_StritarKucuk.pdf
Stritar Kučuk, M. (2024b). Pravopisne napake govorcev slovenščine kot neprvega jezika: Korpusni pogled. V S. Štumberger (ur.), Simpozij Obdobja 43: Predpis in norma v jeziku (str. 327–337). Ljubljana: Založba Univerze v Ljubljani.
Stritar Kučuk, M. (2024c). Prvi korpus slovenščine kot tujega jezika KOST 1.0. V Š. Arhar Holdt & S. Krek (ur.), Razvoj slovenščine v digitalnem okolju (str. 93–117). Ljubljana: Založba Univerze v Ljubljani. Pridobobljeno s https://ebooks.uni-lj.si/ZalozbaUL/catalog/view/522/852/9444
Stritar Kučuk, M., Pisek, S., & Šter, H. (2024). »Po občutku«: korpusni pogled na vejico in neprve govorce slovenščine. V S. Štumberger (ur.), Simpozij Obdobja 43: Predpis in norma v jeziku. (str. 339–47). Ljubljana: Založba Univerze v Ljubljani.
Tinta, M. (2019). Korpus Šolar in zanesljivost ocenjevanja šolskih pisnih nalog na različnih stopnjah šolanja. Magistrsko delo. Fakulteta za humanistiko, Univerza v Novi Gorici. Pridobljeno s https://repozitorij.ung.si/Dokument.php?id=18748&lang=slv
Volodina, E., Granstedt, L., Matsson, A., Megyesi, B., Pilán, I., Prentice, J., …, & Wirén, M. (2019). The SweLL Language Learner Corpus: From Design to Annotation. Northern European Journal of Language Technology, 6, 67–104.
Prenosi
Objavljeno
Številka
Rubrika
Licenca
Avtorske pravice (c) 2025 Mojca Stritar Kučuk

To delo je licencirano pod Creative Commons Priznanje avtorstva-Deljenje pod enakimi pogoji 4.0 mednarodno licenco.