Označevanje jezikovnih napak v slovenščini kot neprvem jeziku

Splošna načela in praktični preizkus označevanja v korpusu KOST

Avtorji

  • Mojca Stritar Kučuk Univerza v Ljubljani, Filozofska fakulteta

DOI:

https://doi.org/10.4312/slo2.0.2025.1.24-57

Ključne besede:

korpus usvajanja jezika, slovenščina kot drugi jezik, označevanje jezikovnih napak, taksonomija napak, študentsko delo

Povzetek

V prispevku je opisano označevanje jezikovnih napak v korpusu slovenščine kot tujega jezika KOST 2.0. Predstavljena so izhodišča za označevanje napak, ki temeljijo na načelu minimalnega popravka in težijo k normi stan­dardne slovenščine. Opisana in s primeri iz KOST-a, v katerem so bile napake označene na 24 % besedil, je prikazana taksonomija napak, ki ima 23 tipov napak, združenih v štiri osnovne kategorije (zapis, besedišče, oblika, skladnja). V praksi sta bila postopek označevanja napak in njihovo razvrščanje v kategorije preizkušena na študentih slovenistike, ki so v treh študijskih letih označili 197 korpusnih besedil. Delo so ocenili kot zanimivo in koristno, vendar so zaradi pomanjkljivega strokovnega znanja, pomanjkanja izkušenj s slovenščino kot tujim jezikom, površnosti in nagnjenosti k pretiranemu popravljanju besedil njihovi rezultati pretežno neustrezni.

Prenosi

Podatki o prenosih še niso na voljo.

Literatura

Anon. (2014). Slovar slovenskega knjižnega jezika. Ljubljana: SAZU in Inštitut za slovenski jezik Frana Ramovša ZRC SAZU.

Arhar Holdt, Š., Erjavec, T., Kosem, I., & Elena Volodina. (2024). Towards an ideal tool for learner error annotation. V N. Calzolari et al. (ur.), Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), Torino, Italia (str. 16392–16398). ELRA and ICCL. Pridobljeno s https://aclanthology.org/2024.lrec-main.1424.pdf

Arhar Holdt, Š., & Kosem, I. (2024). Šolar, the developmental corpus of Slovene. Language Resources and Evaluation. doi: 10.1007/s10579-024-09758-4.

Arhar Holdt, Š., Kosem, I., & Stritar Kučuk, M. (2022). Metode in orodja za lažjo pripravo korpusov usvajanja jezika. V N. Pirih Svetina & I. Ferbežar (ur.), Simpozij Obdobja 41: Na stičišču svetov: slovenščina kot drugi in tuji jezik. Ljubljana: Založba Univerze v Ljubljani. Pridobljeno s https://centerslo.si/wp-content/uploads/2022/11/Arhar-Holdt-et-al_Obdobja-41.pdf

Arhar Holdt, Špela, Lavrič, P., Roblek, R., & Goli, T. (2022). Kategorizacija učiteljskih popravkov: Smernice za označevanje korpusa Šolar. Pridobljeno s https://www.cjvt.si/prop/wp-content/uploads/sites/23/2023/11/Smernice-za-oznacevanje-korpusa-Solar-v1.1.pdf

Arhar Holdt, Š., Pori, E., & Kosem, I. (2023). Prihodnost korpusa Šolar. V Š. Arhar Holdt & S. Krek (ur.), Razvoj slovenščine v digitalnem okolju (str. 61–96). Ljubljana: Založba Univerze v Ljubljani. Pridobljeno s https://ebooks.uni-lj.si/ZalozbaUL/catalog/view/522/852/9442

Ellis, R. (1994). The Study of Second Language Acquisition. Oxford: Oxford University Press.

Gantar, P., Bon, M., Gapsa, M., & Arhar Holdt, Š. (2023). Šolar-Eval: Evalvacijska množica za strojno popravljanje jezikovnih napak v slovenskih besedilih. Jezik in slovstvo, 68(4), 89–108. doi: 10.4312/jis.68.4.89-108

Granger, S. (2003). Error-tagged learner corpora and CALL: A promising synergy. CALICO Journal, 20(3), 465–79.

Granger, S., Swallow, H., & Thewissen, J. (2022). The Louvain Error Tagging Manual Version 2.0. Louvain-la-Neuve: Centre for English Corpus Linguistics, Université catholique de Louvain.

James, C. (1998). Errors in Language Learning and Use: Exploring Error Analysis. London, New York: Longman.

Klemen, M., Arhar Holdt, Š., Pollak, S., Kosem, I., Pori, E., Gantar, P., & Knez, M. (2023). Building a CEFR-Labeled Core Vocabulary and Developing a Lexical Resource for Slovenian as a Second and Foreign Language. V M. Medveď idr. (ur.), Proceedings of the eLex conference: electronic lexicography in the 21st century (eLex 2023), Brno, 27–29 June 2023 (str. 664–78). Brno: Lexical Computing CZ. Pridobljeno s https://elex.link/elex2023/wp-content/uploads/118.pdf

Kranjc, S. (2023). Od medmrežnih pogovorov do ChatGPT-ja. V J. Vogel (ur.), 59. seminar slovenskega jezika, literature in kulture: slovenski jezik, literatura, kultura in digitalni svet(ovi) (str. 11–20). Ljubljana: Založba Univerze v Ljubljani.

Lenarčič, S. (2009). Bo kdo ustavil in popravil lektorski aparat?, Delo, 51/52.

Lüdeling, A., Walter, M., Kroymann, E., & Adolphs, P. (2005). Multi-Level Error Annotation in Learner Corpora. Pridobljeno s https://www.researchgate.net/publication/228352566_Multi-Level_Error_Annotation_in_Learner_Corpora

Mikelić Preradović, N. (2020). Označavanje pogrešaka u CroLTeC-u (računalnom učeničkom korpusu hrvatskog kao stranog jezika). Rasprave: Časopis Instituta za hrvatski jezik i jezikoslovlje, 46(2), 899–920.

Pirih Svetina, N. (2005). Slovenščina kot tuji jezik. Ljubljana: Izolit.

Rakhilina, E., Vyrenkova, A., Mustakimova, E., Ladygina, A., & Smirnov, I. (2016). Building a learner corpus for Russian. V E. Volodina idr. (ur.), Proceedings of the joint workshop on NLP for Computer Assisted Language Learning and NLP for Language Acquisition (str. 66–75). Umeå, Sweden: LiU Electronic Press. Pridobljeno s https://aclanthology.org/W16-6509/

Reznicek, M., Lüdeling, A., Krummes, C., Schwantuschke, F., Walter, M., Schmidt, K., Hirschmann, H., & Andreas, T. (2012). Das FALKO-Handbuch: Korpus Aufbau und Annotationen, Version 2.01. Berlin: Humboldt-Universität zu Berlin.

Rosen, A., Hana, J., Hladka, B., Jelinek, T., Škodova, S., & Štindlova, B. (2020). Compiling and annotating a learner corpus for a morphologically rich language: CzeSL, a corpus of non-native Czech. Praga: Karlova univerza.

Stritar Kučuk, M. (2012). Korpusi usvajanja tujega jezika. Ljubljana: Zveza društev Slavistično društvo Slovenije.

Stritar Kučuk, M. (2020). Modul Leto plus: Prvi korak do korpusa usvajanja slovenščine kot tujega jezika. V D. Fišer & T. Erjavec (ur.), Zbornik konference Jezikovne tehnologije in digitalna humanistika 2020 (str. 131–135). Ljubljana: Inštitut za novejšo zgodovino. Pridobljeno s http://nl.ijs.si/jtdh20/pdf/JT-DH_2020_StritarKucuk_Modul-Leto-plus%e2%80%93prvi-korak-do-korpusa-slovenscine-kot-tujega-jezika.pdf

Stritar Kučuk, M. (2022). KOST med korpusi usvajanja tujega jezika. V N. Pirih Svetina & I. Ferbežar (ur.), Simpozij Obdobja 41: Na stičišču svetov: slovenščina kot drugi in tuji jezik (str. 323–34). Ljubljana: Založba Univerze v Ljubljani.

Stritar Kučuk, M. (2023). Priročnik za označevanje napak.

Stritar Kučuk, M. (2024a). KOST 2.0: Predstavitev korpusa in potek označevanja jezikovnih napak. V Š. Arhar Holdt & T. Erjavec (ur.), Zbornik konference Jezikovne tehnologije in digitalna humanistika 2024 (str. 589–603). Ljubljana: Inštitut za novejšo zgodovino. Pridobljeno s https://www.sdjt.si/wp/wp-content/uploads/2024/09/JT-DH-2024_StritarKucuk.pdf

Stritar Kučuk, M. (2024b). Pravopisne napake govorcev slovenščine kot neprvega jezika: Korpusni pogled. V S. Štumberger (ur.), Simpozij Obdobja 43: Predpis in norma v jeziku (str. 327–337). Ljubljana: Založba Univerze v Ljubljani.

Stritar Kučuk, M. (2024c). Prvi korpus slovenščine kot tujega jezika KOST 1.0. V Š. Arhar Holdt & S. Krek (ur.), Razvoj slovenščine v digitalnem okolju (str. 93–117). Ljubljana: Založba Univerze v Ljubljani. Pridobobljeno s https://ebooks.uni-lj.si/ZalozbaUL/catalog/view/522/852/9444

Stritar Kučuk, M., Pisek, S., & Šter, H. (2024). »Po občutku«: korpusni pogled na vejico in neprve govorce slovenščine. V S. Štumberger (ur.), Simpozij Obdobja 43: Predpis in norma v jeziku. (str. 339–47). Ljubljana: Založba Univerze v Ljubljani.

Tinta, M. (2019). Korpus Šolar in zanesljivost ocenjevanja šolskih pisnih nalog na različnih stopnjah šolanja. Magistrsko delo. Fakulteta za humanistiko, Univerza v Novi Gorici. Pridobljeno s https://repozitorij.ung.si/Dokument.php?id=18748&lang=slv

Volodina, E., Granstedt, L., Matsson, A., Megyesi, B., Pilán, I., Prentice, J., …, & Wirén, M. (2019). The SweLL Language Learner Corpus: From Design to Annotation. Northern European Journal of Language Technology, 6, 67–104.

Prenosi

Objavljeno

30. 05. 2025

Številka

Rubrika

Razprave

Kako citirati

Stritar Kučuk, M. (2025). Označevanje jezikovnih napak v slovenščini kot neprvem jeziku: Splošna načela in praktični preizkus označevanja v korpusu KOST. Slovenščina 2.0: Empirične, Aplikativne in Interdisciplinarne Raziskave, 13(1), 24-57. https://doi.org/10.4312/slo2.0.2025.1.24-57