Šolar-Eval

Evalvacijska množica za strojno popravljanje jezikovnih napak v slovenskih besedilih

Avtorji

  • Polona Gantar Univerza v Ljubljani, Filozofska fakulteta; Univerza v Ljubljani, Fakulteta za računalništvo in informatiko
  • Mija Bon Univerza v Ljubljani, Filozofska fakulteta
  • Magdalena Gapsa Univerza v Ljubljani, Fakulteta za računalništvo in informatiko
  • Špela Arhar Holdt Univerza v Ljubljani, Filozofska fakulteta; Univerza v Ljubljani, Fakulteta za računalništvo in informatiko

DOI:

https://doi.org/10.4312/jis.68.4.89-108

Ključne besede:

jezikovni popravki, korpus Šolar, strojno popravljanje, evalvacijska množica, minimalni jezikovni poseg

Povzetek

Razvojni korpusi so temeljni vir za raziskave jezikovnega usvajanja, pripravo didaktičnih gradiv in razvoj orodij, ki podpirajo opismenjevanje in pismenost. Za slovenščino je na voljo razvojni korpus Šolar, ki vključuje 5.485 besedil, ki so jih učenke in učenci samostojno tvorili pri pouku, ter 36.570 učiteljskih popravkov. Ti popravki so izjemno dragoceni, ker omogočajo opazovanje avtentične povratne informacije v kontekstu razvoja pisnih zmožnosti. Ker pa niso dosledni in konsistentni, korpus Šolar ni uporaben za razvoj in evalvacijo strojnega popravljanja. Zato smo iz gradiva korpusa Šolar pripravili evalvacijsko množico Šolar-Eval, ki vsebuje 109 šolskih spisov, popravljenih dosledno in konsistentno po maksimi minimalnega jezikovnega posega, čemur se podrobneje posvečamo v prispevku. Metodologija priprave vključuje izbor gradiva, vnos in vsebinsko označevanje popravkov s pomočjo orodja CJVT Svala 1.0 in strojno jezikoslovno označevanje. Šolar-Eval 1.0 je za raziskovalno in razvojno skupnost na voljo na repozitoriju CLARIN.SI pod odprto licenco.

Prenosi

Podatki o prenosih še niso na voljo.

Literatura

Viri

Arhar Holdt, Špela, Gantar, Polona, Bon, Mija, Gapsa, Magdalena, Lavrič, Polona in Klemen, Matej, 2023a: Dataset for evaluation of Slovene spell- and grammar-checking tools Šolar-Eval 1.0. Repozitorij CLARIN.SI. http://hdl.handle.net/11356/1902. (Dostop 6. 12. 2023.)

Arhar Holdt, Špela, Rozman, Tadeja, Stritar Kučuk, Mojca, Krek, Simon, Krapš Vodopivec, Irena, Stabej, Marko, Pori, Eva, Goli, Teja, Lavrič, Polona, Laskowski, Cyprian, Kocjančič, Polonca, Klemenc, Bojan, Krsnik, Luka in Kosem, Iztok, 2022a: Developmental corpus Šolar 3.0. Repozitorij CLARIN.SI. http://hdl.handle.net/11356/1589. (Dostop 30. 10. 2023.)

Arhar Holdt, Špela, Rozman, Tadeja, Stritar Kučuk, Mojca, Krek, Simon, Krapš Vodopivec, Irena, Stabej, Marko, Pori, Eva, Goli, Teja, Lavrič, Polona, Laskowski, Cyprian, Kocjančič, Polonca, Klemenc, Bojan, Krsnik, Luka, Žagar, Aleš in Kosem, Iztok, 2022c: Frequency list of language problems from Šolar 3.0. Repozitorij CLARIN.SI. http://hdl.handle.net/11356/1716. (Dostop 30. 10. 2023.)

Kolokacijski slovar sodobne slovenščine 2.0: https://viri.cjvt.si/kolokacije/slv/#. (Dostop 26. 9. 2023.)

Korpus pisne standardne slovenščine Gigafida 2.0: https://viri.cjvt.si/gigafida/. (Dostop 26. 9. 2023.)

Kosem, Iztok, Gantar, Polona, Krek, Simon, Arhar Holdt, Špela, Čibej, Jaka, Laskowski, Cyprian, Pori, Eva, Klemenc, Bojan, Dobrovoljc, Kaja, Gorjanc, Vojko in Ljubešić, Nikola, 2023: Collocations Dictionary of Modern Slovene KSSS 1.0. Repozitorij CLARIN.SI. http://hdl.handle.net/11356/1250. (Dostop 30. 10. 2023.)

Slovar sopomenk sodobne slovenščine 2.0: https://viri.cjvt.si/sopomenke/slv/. (Dostop 26. 9. 2023.)

Slovarski portal Fran. Inštitut za slovenski jezik Frana Ramovša ZRC SAZU: www.fran.si. (Dostop 26. 10. 2023.)

*****

Literatura

Ahačič, Kozma, 2017a: Kratkoslovnica: slovenska slovnica za osnovno šolo. 1. izdaja. Ljubljana: Rokus Klett.

Ahačič, Kozma, 2017b: Slovnica na kvadrat: slovenska slovnica za srednjo šolo. 1. izdaja. Ljubljana: Rokus Klett.

Arhar Holdt, Špela in Kosem, Iztok, 2023: Šolar, the developmental corpus of slovene. Preprint. DOI: https://doi.org/10.21203/rs.3.rs-3274669/v1.

Arhar Holdt, Špela in Rozman, Tadeja, 2015: Možnosti uporabe podatkov iz korpusa Šolar za pripravo slovarskih priročnikov. Smolej, Mojca (ur.): Slovnica in slovar – aktualni jezikovni opis. 1. del. Obdobja 34. Ljubljana: Znanstvena založba Filozofske fakultete. 67–74.

Arhar Holdt, Špela, Gantar, Polona, Kosem, Iztok, Pori, Eva, Robnik Šikonja, Marko in Krek, Simon, 2023: Thesaurus of Modern Slovene 2.0. Medveď, Marek idr. (ur.): eLex 2023: electronic lexicography in the 21st century (eLex 2023): proceedings of the eLex 2023 conference: [Brno], 27–29 June 2023. Brno: Lexical Computing CZ. 366–381. https://elex.link/elex2023/wp-content/uploads/82.pdf. (Dostop 30. 11. 2023.)

Arhar Holdt, Špela, Kosem, Iztok in Gantar, Polona, 2017: Corpus-based resources for L1 teaching: the case of Slovene. Marcus-Quinn, Ann in Hourigan, Tríona (ur.): Hand­book on digital learning for K-12 schools. [S. l.]: Springer. 91–113. DOI: https://doi.org/10.1007/978-3-319-33808-8_1.

Arhar Holdt, Špela, Lavrič, Polona, Roblek, Rebeka in Goli, Teja, 2022b: Kategorizacija učiteljskih popravkov: Smernice za označevanje korpusa Šolar. Rezultat projekta Razvoj slovenščine v digitalnem okolju. Različica 1.1. https://wiki.cjvt.si/books/11-jezikovni-popravki-solar/page/oznacevalne-smernice. (Dostop 30. 11. 2023.)

Arhar Holdt, Špela, Pollak, Senja, Robnik Šikonja, Marko in Krek, Simon, 2020: Referenčni seznam pogostih splošnih besed za slovenščino. Fišer, Darja in Erjavec, Tomaž (ur.): Zbornik konference Jezikovne tehnologije in digitalna humanistika, 24.–25. september 2020, Ljubljana, Slovenija. Ljubljana: Inštitut za novejšo zgodovino. 10–15. http://nl.ijs.si/jtdh20/pdf/JT-DH_2020_Arhar-Holdt-et-al_Referencni-seznam-pogostih-splosnih-besed-za-slovenscino.pdf. (Dostop 30. 11. 2023.)

Bon, Mija in Gapsa, Magdalena, v pripravi: Analiza napak pri rabi vejice v šolskih spisih. Škrabčevi dnevi 13: Zbornik prispevkov s simpozija 2023. Nova Gorica, 20. oktober 2023.

Gantar, Polona, Arhar Holdt, Špela, Čibej, Jaka, Kuzman, Taja in Kavčič, Teja, 2018: Glagolske večbesedne enote v učnem korpusu ssj500k 2.1. Fišer, Darja in Pančur, Andrej (ur.): Zbornik konference Jezikovne tehnologije in digitalna humanistika, 20.–21. september 2018, Ljubljana, Slovenija. Ljubljana: Znanstvena založba Filozofske fakultete. 85–92. http://nl.ijs.si/jtdh18/JTDH-2018-Proceedings.pdf. (Dostop 30. 11. 2023.)

Holozan, Peter, 2013: Uporaba strojnega učenja za postavljanje vejic v slovenščini. Uporabna informatika 21/4. 196–209.

Holozan, Peter, 2015: Možnosti uporabe jezikovnih tehnologij za določanje težav pri rabi vejice. Dobrovoljc, Helena in Lengar Verovnik, Tina (ur.): Pravopisna razpotja: razprave o pravopisnih vprašanjih. Ljubljana: Založba ZRC, ZRC SAZU. 77–92.

Kosem, Iztok, Arhar Holdt, Špela, Gantar, Polona in Krek, Simon, 2023: Collocations Dictionary of Modern Slovene 2.0. Medveď, Marek idr. (ur.): eLex 2023: electronic lexicography in the 21st century (eLex 2023): proceedings of the eLex 2023 conference: [Brno], 27–29 June 2023. Brno: Lexical Computing CZ. 491–507. https://elex.link/elex2023/wp-content/uploads/100.pdf. (Dostop 30. 11. 2023.)

Kosem, Iztok, Rozman, Tadeja, Arhar Holdt, Špela, Kocjančič, Polonca in Laskowski, Cyprian Adam, 2016: Šolar 2.0: nadgradnja korpusa šolskih pisnih izdelkov. Erjavec, Tomaž in Fišer, Darja (ur.): Zbornik konference Jezikovne tehnologije in digitalna humanistika, 29. september–1. oktober 2016, Filozofska fakulteta, Univerza v Ljubljani, Ljubljana. Ljubljana: Znanstvena založba Filozofske fakultete Univerze v Ljubljani. 95–100. http://www.sdjt.si/wp/wp-content/uploads/2016/09/JTDH-2016_Kosem-et-al_Solar-2-0-nadgradnja-korpusa-solskih-pisnih-izdelkov.pdf. (Dostop 30. 11. 2023.)

Kosem, Iztok, Stritar Kučuk, Mojca, Može, Sara, Zwitter Vitez, Ana, Arhar Holdt, Špela in Rozman, Tadeja, 2012: Analiza jezikovnih težav učencev: korpusni pristop. Ljubljana: Trojina. DOI: https://doi.org/10.4312/9789610603535.

Kranjc, Anja in Robnik Šikonja, Marko, 2015: Postavljanje vejic v slovenščini s pomočjo strojnega učenja in izboljšanega korpusa Šolar. Fišer, Darja (ur.): Zbornik konference Slovenščina na spletu in v novih medijih, Ljubljana, 25.–27. november 2015. Ljubljana: Znanstvena založba Filozofske fakultete Univerze v Ljubljani. 38–43. https://ebooks.uni-lj.si/ZalozbaUL/catalog/view/80/172/1807. (Dostop 30. 11. 2023.)

Krek, Simon, Arhar Holdt, Špela, Erjavec, Tomaž, Čibej, Jaka, Repar, Andraž, Gantar, Polona, Ljubešić, Nikola, Kosem, Iztok in Dobrovoljc, Kaja, 2020: Gigafida 2.0: the reference corpus of written standard Slovene. Calzolari, Nicoletta idr. (ur.): LREC 2020: Twelfth International Conference on Language Resources and Evaluation: May 11-16, 2020, Palais du Pharo, Marseille, France. Paris: ELRA – European Language Resources Association. 3340–3345. http://www.lrec-conf.org/proceedings/lrec2020/LREC-2020.pdf (Dostop 30. 11. 2023.)

Leech, Geoffrey, 1997: Teaching and language corpora: A convergence. Wichmann, Anne idr. (ur.): Teaching and language corpora. London: Longman. 1–23. DOI: https://doi.org/10.4324/9781315842677.

Mokotar, Rok, 2023: Obvladovanje slovničnih napak v šolskih pisnih izdelkih z metodami za obdelavo naravnega jezika. Diplomsko delo. Ljubljana: Fakulteta za računalništvo in informatiko, Univerza v Ljubljani. https://repozitorij.uni-lj.si/IzpisGradiva.php?id=144932. (Dostop 30. 11. 2023.)

Može, Sara, 2013: Raba kratkega nedoločnika: korpusni pristop. Slovenščina 2.0 1/1. 155–175. DOI: https://doi.org/10.4312/slo2.0.2013.1.155-175.

Pala, Karel, Rychlý, Pavel in Smrž, Pavel, 2003: Text Corpus with Errors. Matoušek, Václav in Mautner, Pavel (ur.): Text, Speech and Dialogue, Proceedings of 6th International Conference, TSD 2003, Ceské Budejovice, Czech Republic, September 8-12, 2003. Berlin, Heidelberg: Springer. 90–97. DOI: https://doi.org/10.1007/978-3-540-39398-6_13.

Petrič, Timotej, 2022: Predlogi jezikovnih popravkov v slovenščini z modelom SloBERTa. Diplomsko delo. Ljubljana: Fakulteta za računalništvo in informatiko, Univerza v Ljubljani. https://repozitorij.uni-lj.si/IzpisGradiva.php?id=139688. (Dostop 30. 11. 2023.)

Popič, Damjan, 2014: Revising translation revision in Slovenia. Mikolič Južnič, Tamara idr. (ur.): New Horizons in Translation Research and Education 2. Joensuu: University of Eastern Finland, Philosophical faculty. 72–89. https://erepo.uef.fi/handle/123456789/14340. (Dostop 30. 11. 2023.)

Rozman, Tadeja, Arhar Holdt, Špela, Pollak, Senja in Kosem, Iztok, 2018: Kolokacije v korpusu Šolar. Jezik in slovstvo 63/2–3. 117–128. https://www.jezikinslovstvo.com/pdf.php?part=2018%7C2-3%7C117-128.

Rozman, Tadeja, Stritar, Mojca in Kosem, Iztok, 2012: Šolar – korpus šolskih pisnih izdelkov. Rozman, Tadeja idr. (ur.): Empirični pogled na pouk slovenskega jezika. Ljubljana: Trojina. DOI: https://doi.org/10.4312/9789610603511.

Stritar Kučuk, Mojca, 2022: KOST med korpusi usvajanja tujega jezika. Pirih Svetina, Nataša in Ferbežar, Ina (ur.): Na stičišču svetov: slovenščina kot drugi in tuji jezik. Obdobja 41. Ljubljana: Znanstvena založba Filozofske fakultete Univerze v Ljubljani. 323–334.

Terčon, Luka in Ljubešić, Nikola, 2023: CLASSLA-Stanza: The Next Step for Linguistic Processing of South Slavic Languages. Preprint, arXiv. DOI: https://doi.org/10.48550/arXiv.2308.04255.

Tinta, Marjana, 2019: Korpus Šolar in zanesljivost ocenjevanja šolskih pisnih nalog na različnih stopnjah šolanja. Magistrsko delo. Nova Gorica: Fakulteta za humanistiko, Univerza v Novi Gorici. https://repozitorij.ung.si/Dokument.php?id=18748&lang=slv. (Dostop 30. 11. 2023.)

Prenosi

Objavljeno

22.12.2023

Kako citirati

Gantar, P., Bon, M., Gapsa, M., & Arhar Holdt, Špela. (2023). Šolar-Eval: Evalvacijska množica za strojno popravljanje jezikovnih napak v slovenskih besedilih. Jezik in Slovstvo, 68(4), 89-108. https://doi.org/10.4312/jis.68.4.89-108

Podobni članki

1-10 od 86

Lahko poskusite tudi zaženi napredni iskalnik podobnosti za ta članek.