Sopomenke 2.0 in Kolokacije 2.0
Novi koraki za slovenske odzivne slovarje
DOI:
https://doi.org/10.4312/jis.68.4.157-175Ključne besede:
Slovar sopomenk sodobne slovenščine, Kolokacijski slovar sodobne slovenščine, odzivni slovar, strojno pridobivanje leksikografskih podatkov, uporabniško vključevanjePovzetek
V prispevku opišemo nadgradnjo dveh slovarjev, Slovarja sopomenk sodobne slovenščine in Kolokacijskega slovarja sodobne slovenščine, ki sta s svojo prvo izdajo v leksikografski prostor vnesla koncept odzivnega slovarja. Za oba slovarja velja, da sta digitalno zasnovana, v izhodišču strojno pripravljena in postopno izboljšana z uvajanjem novih metodoloških postopkov. Ključna lastnost obeh slovarjev je vključevanje uporabnikov v leksikografski proces z možnostjo dodajanja lastnih predlogov in vrednotenja slovarskih podatkov.
V prispevku opišemo nadgrajeni, drugi različici slovarjev, in sicer leksikografsko obdelavo podatkov, zlasti dodajanje pomenskih informacij in informacij o jezikovni rabi pri vrednotenjsko občutljivem besedišču; vključevanje novih vsebin, kot so protipomenke in dodajanje slovničnih informacij pri kolokacijah; implementiranje izsledkov uporabniških raziskav tako pri vsebini slovarskih podatkov kot pri nadgradnji slovarskih vmesnikov; prednosti novega metodološkega postopka pri luščenju podatkov iz korpusa in način vključevanja podatkov v Digitalno slovarsko bazo.
Slovarja predstavljata primer dobre prakse tudi za druge jezikovne skupnosti, saj temeljita na čim večji izrabi jezikovnotehnoloških postopkov pri izdelavi slovarja, hkrati pa uspešno združujeta leksikografski proces in številne možnosti uporabniškega sodelovanja.
Prenosi
Literatura
Arhar Holdt, Špela, 2020: How users responded to a responsive dictionary: the case of the Thesaurus of Modern Slovene. Rasprave: Časopis Instituta za hrvatski jezik i jezikoslovlje 46/2. 465–48. DOI: https://doi.org/10.31724/rihjj.46.2.1. DOI: https://doi.org/10.31724/rihjj.46.2.1
Arhar Holdt, Špela, 2021a: Razvrstitev kolokacij v slovarskem vmesniku: uporabniške prioritete. Kosem, Iztok (ur.): Kolokacije v slovenščini. Ljubljana: Znanstvena založba Filozofske fakultete. 125–157. DOI: https://doi.org/10.4312/9789610605379.
Arhar Holdt, Špela, 2021b: Kolokacije v Slovarju sopomenk sodobne slovenščine: evalvacija podatkov in predlog za izboljšavo. Kosem, Iztok (ur.): Kolokacije v slovenščini. Ljubljana: Znanstvena založba Filozofske fakultete. 269–296. DOI: https://doi.org/10.4312/9789610605379.
Arhar Holdt, Špela, Čibej, Jaka, Dobrovoljc, Kaja, Gantar, Polona, Gorjanc, Vojko, Klemenc, Bojan, Kosem, Iztok, Krek, Simon, Laskowski, Cyprian in Robnik-Šikonja, Marko, 2018: Thesaurus of Modern Slovene: By the Community for the Community. Krek, Simon idr. (ur.): Proceedings of the XVIII EURALEX International Congress: Lexicography in global contexts. Ljubljana: Znanstvena založba Filozofske fakultete. 401–410. DOI: https://doi.org/10.4312/9789610600961.
Arhar Holdt, Špela, Gantar, Polona, Kosem, Iztok, Pori, Eva, Robnik Šikonja, Marko in Krek, Simon, 2023b: Thesaurus of Modern Slovene 2.0. Medved, Marek idr. (ur.): eLex 2023: electronic lexicography in the 21st century (eLex 2023): proceedings of the eLex 2023 conference: [Brno], 27–29 June 2023. Brno: Lexical Computing CZ. 366–381. https://elex.link/elex2023/wp-content/uploads/82.pdf. (Dostop 30. 11. 2023.)
Arhar Holdt, Špela, Kosem, Iztok, Pori, Eva, Gorjanc, Vojko, Krek, Simon in Gantar, Polona, 2023a: Negativno zaznamovano besedišče v Slovarju sopomenk sodobne slovenščine 2.0. Slovenščina 2.0 11/1, 8–32. DOI: https://doi.org/10.4312/slo2.0.2023.1.8-32. DOI: https://doi.org/10.4312/slo2.0.2023.1.8-32
Arhar Holdt, Špela, Logar, Nataša, Pori, Eva in Kosem, Iztok, 2021: Game of words: play the game, clean the database. Gavriilidou, Zoe idr. (ur.): Lexicography for inclusion: EURALEX XIX: Congress of the European Association for Lexicography: 7-9 September 2021, Vol. 2. Komotini: Democritus University of Thrace. 41–49. https://euralex.org/publications/game-of-words-play-the-game-clean-the-database/. (Dostop 30. 11. 2023.)
Colman, Lut in Tiberius, Carole, 2018: A good match: a Dutch collocation, idiom and pattern dictionary combined. Krek, Simon idr. (ur.): Proceedings of the XVIII EURALEX International Congress: Lexicography in global contexts. Ljubljana: Znanstvena založba Filozofske fakultete. 233–246. DOI: https://doi.org/10.4312/9789610600961. DOI: https://doi.org/10.4312/9789610600961
Čibej, Jaka in Arhar Holdt, Špela, 2019: Repel the syntruders! A crowdsourcing cleanup of the Thesaurus of modern Slovene. Kosem, Iztok idr. (ur.): Proceedings of the eLex 2019 conference, Electronic lexicography in the 21st century: Smart lexicography. Sintra, Portugal. Brno: Lexical Computing. 338–356. https://elex.link/elex2019/wp-content/uploads/2019/09/eLex_2019_19.pdf. (Dostop 30. 11. 2023.)
Fišer, Darja, Ljubešić, Nikola in Erjavec, Tomaž, 2020: The Janes project: language resources and tools for Slovene user generated content. Language Resources and Evaluation 54/1. 223–246. DOI: https://doi.org/10.1007/s10579-018-9425-z. DOI: https://doi.org/10.1007/s10579-018-9425-z
Gantar, Polona, 2015: Leksikografski opis slovenščine v digitalnem okolju. Ljubljana: Znanstvena založba Filozofske fakultete. DOI: https://doi.org/10.4312/9789612377922. DOI: https://doi.org/10.4312/9789612377922
Gantar, Polona, Krek, Simon in Kosem, Iztok, 2021: Opredelitev kolokacij v digitalnih slovarskih virih za slovenščino. Kosem, Iztok (ur.): Kolokacije v slovenščini. Ljubljana: Znanstvena založba Filozofske fakultete. 15–41. DOI: https://doi.org/10.4312/9789610605379.
Gapsa, Magdalena in Arhar Holdt, Špela, 2023: How Lexicographers Evaluate User Contributions in The Thesaurus of Modern Slovene in Comparison to Dictionary Users. Medved, Marek idr. (ur.): eLex 2023: electronic lexicography in the 21st century (eLex 2023): proceedings of the eLex 2023 conference: [Brno], 27–29 June 2023. Brno: Lexical Computing CZ. Brno: Lexical Computing CZ. 178–200. https://elex.link/elex2023/wp-content/uploads/47.pdf. (Dostop 30. 11. 2023.)
Hudeček, Lana in Mihaljević, Milica, 2020: Collocations in the Croatian Web Dictionary – Mrežnik. Slovenščina 2.0 8/2. 78–111. DOI: https://doi.org/10.4312/slo2.0.2020.2.78-111. DOI: https://doi.org/10.4312/slo2.0.2020.2.78-111
Kallas, Jelena, Kilgarriff, Adam, Koppel, Kristina, Kudritski, Elgar, Langemets, Margit, Michelfeit, Jan, Tuulik, Maria in Viks, Ülle, 2015: Automatic generation of the Estonian Collocations Dictionary database. Kosem, Iztok idr. (ur.): Electronic lexicography in the 21st century: linking lexical data in the digital age. Proceedings of the eLex 2015 conference, 11–13 August 2015, Herstmonceux Castle, United Kingdom. Ljubljana: Trojina; Brighton: Lexical Computing. 1−20. https://elex.link/elex2015/proceedings/eLex_2015_01_Kallas+etal.pdf. (Dostop 30. 11. 2023.)
Kilgarriff, Adam, Baisa, Vít, Bušta, Jan, Jakubíček, Miloš, Kovář, Vojtěch, Michelfeit, Jan, Rychlý, Pavel in Suchomel, Vít, 2014: The Sketch Engine: ten years on. Lexicography 1/1. 7–36. DOI: https://doi.org/10.1007/s40607-014-0009-9. DOI: https://doi.org/10.1007/s40607-014-0009-9
Koppel, Kristina, Kallas, Jelena, Khokhlova, Maria, Suchomel, Vít, Baisa, Vít in Michelfeit, Jan, 2019: SkELL corpora as a part of the language portal Sõnaveeb: problems and perspectives. Kosem, Iztok idr. (ur.): Proceedings of the eLex 2019 conference, Electronic lexicography in the 21st century: Smart lexicography. Sintra, Portugal. Brno: Lexical Computing. 763–782. https://elex.link/elex2019/wp-content/uploads/2019/09/eLex_2019_43.pdf. (Dostop 30. 11. 2023.)
Kosem, Iztok in Pori, Eva, 2021: Slovenske ontologije semantičnih tipov: samostalniki. Kosem, Iztok (ur.): Kolokacije v slovenščini. Ljubljana: Znanstvena založba Filozofske fakultete. 159–202. DOI: https://doi.org/10.4312/9789610605379.
Kosem, Iztok, Bálint Čeh, Júlia, Ponikvar, Primož, Zaranšek, Petra, Kamenšek, Urška, Koša, Peter, Gróf, Annamária, Böröcz, Nándor, Harmat Császár, Jolanda, Szíjártó, Imre, Šantak, Borut, Gantar, Polona, Krek, Simon, Roblek, Rebeka, Zgaga, Karolina, Logar, Urban, Pori, Eva, Arhar Holdt, Špela in Gorjanc, Vojko, 2021a: Comprehensive Slovenian-Hungarian Dictionary 1.0. Repozitorij CLARIN.SI. http://hdl.handle.net/11356/1453. (Dostop 30. 11. 2023.)
Kosem, Iztok, Čibej, Jaka, Dobrovoljc, Kaja, Erjavec, Tomaž, Ljubešić, Nikola, Ponikvar, Primož, Šinkec, Mihael in Krek, Simon, 2022: Monitor corpus of Slovene Trendi 2022-10. Repozitorij CLARIN.SI. http://hdl.handle.net/11356/1681. (Dostop 30. 11. 2023.)
Kosem, Iztok, Gantar, Polona, Krek, Simon, Arhar Holdt, Špela, Čibej, Jaka, Laskowski, Cyprian, Pori, Eva, Klemenc, Bojan, Dobrovoljc, Kaja, Gorjanc, Vojko in Ljubešić, Nikola, 2019: Collocations Dictionary of Modern Slovene KSSS 1.0. Repozitorij CLARIN.SI. http://hdl.handle.net/11356/1250. (Dostop 30. 11. 2023.)
Kosem, Iztok, Krek, Simon in Gantar, Polona, 2021b: Semantic data should no longer exist in isolation: the Digital Dictionary Database of Slovenian. Gavriilidou, Zoe idr. (ur.): Lexicography for inclusion: EURALEX XIX: Congress of the European Association for Lexicography: 7-9 September 2021. Komotini: Democritus University of Thrace. 81–83. https://elex.is/wp-content/uploads/2021/09/Semantic-Data-should-no-longer-exist-in-isolation-the-Digital-Dictionary-Database-of-Slovenian_Kosem-Krek-Gantar_EURALEX2020.pdf. (Dostop 30. 11. 2023.)
Krek, Simon, Arhar Holdt, Špela, Erjavec, Tomaž, Čibej, Jaka, Repar, Andraž, Gantar, Polona, Ljubešić, Nikola, Kosem, Iztok in Dobrovoljc, Kaja, 2020: Gigafida 2.0: the reference corpus of written standard Slovene. Calzolari, Nicoletta idr. (ur.): LREC 2020: Twelfth International Conference on Language Resources and Evaluation: May 11-16, 2020, Palais du Pharo, Marseille, France. Paris: ELRA – European Language Resources Association. 3340–3345. http://www.lrec-conf.org/proceedings/lrec2020/LREC-2020.pdf. (Dostop 30. 11. 2023.)
Krek, Simon, Gantar, Polona in Kosem, Iztok, 2022: Extraction of collocations from the Gigafida 2.1 corpus of Slovene. Klosa-Kückelhaus, Annette idr. (ur.): EURALEX 2022, Proceedings of the XX EURALEX International Congress, 12-16 July 2022. Mannheim: IDS-Verlag. 240–252. https://euralex.org/wp-content/themes/euralex/proceedings/Euralex%202022/EURALEX2022_Pr_p240-252_Krek-Gantar-Kosem.pdf. (Dostop 30. 11. 2023.)
Krek, Simon, Gantar, Polona, Kosem, Iztok in Dobrovoljc, Kaja, 2021: Opis modela za pridobivanje in strukturiranje kolokacijskih podatkov iz korpusa. Arhar Holdt, Špela (ur.): Nova slovnica sodobne standardne slovenščine. Ljubljana: Znanstvena založba Filozofske fakultete. 160–194. DOI: https://doi.org/10.4312/9789610605478. DOI: https://doi.org/10.4312/9789610605478
Krek, Simon, Laskowski, Cyprian in Robnik Šikonja, Marko, 2017: From translation equivalents to synonyms: creation of a Slovene thesaurus using word co-occurrence network analysis. Kosem, Iztok idr. (ur.): Proceedings of eLex 2017: Lexicography from Scratch. Leiden: Dutch Language Institut; Brno: Lexical Computing; Ljubljana: Trojina. 93–109. https://elex.link/elex2017/wp-content/uploads/2017/09/paper05.pdf. (Dostop 30. 11. 2023.)
Krek, Simon, Laskowski, Cyprian, Robnik Šikonja, Marko, Kosem, Iztok, Arhar Holdt,
Špela, Gantar, Polona, Čibej, Jaka, Gorjanc, Vojko, Klemenc, Bojan in Dobrovoljc, Kaja, 2018: Thesaurus of Modern Slovene 1.0. Repozitorij CLARIN.SI. http://hdl.handle.net/11356/1166. (Dostop 30. 11. 2023.)
Logar Berginc, Nataša, Grčar, Miha, Brakus, Marko, Erjavec, Tomaž, Arhar Holdt, Špela in Krek, Simon, 2012: Korpusi slovenskega jezika Gigafida, KRES, ccGigafida in ccKRES: gradnja, vsebina, uporaba. Ljubljana: Trojina; Fakulteta za družbene vede. DOI: https://doi.org/10.4312/9789610603542. DOI: https://doi.org/10.4312/9789610603542
Mozetič, Tina, Sever, Miha, Justin, Martin in Pegan, Jasmina, 2022: Evalvacijska kategorizacija strojno izluščenih protipomenskih parov. Fišer, Darja in Erjavec, Tomaž (ur.): Zbornik konference jezikovne tehnologije in digitalna humanistika. Ljubljana: Inštitut za novejšo zgodovino. 331–338. https://nl.ijs.si/jtdh22/pdf/JTDH2022_Mozetic-et-al_Evalvacijska-kategorizacija-strojno-izluscenih-protipomenskih-parov.pdf. (Dostop 30. 11. 2023.)
Pori, Eva in Kosem, Iztok, 2021: Evalvacija avtomatskega luščenja kolokacijskih podatkov iz besednih skic v orodju Sketch Engine. Kosem, Iztok (ur.): Kolokacije v slovenščini. Ljubljana: Znanstvena založba Filozofske fakultete. 43–77. DOI: https://doi.org/10.4312/9789610605379.
Pori, Eva, Čibej, Jaka, Kosem, Iztok in Arhar Holdt, Špela, 2020: The attitude of dictionary users towards automatically extracted collocation data: a user study. Slovenščina 2.0 8/2. 168–201. DOI: https://doi.org/10.4312/slo2.0.2020.2.168-201. DOI: https://doi.org/10.4312/slo2.0.2020.2.168-201
Pori, Eva, Kosem, Iztok, Čibej, Jaka in Arhar Holdt, Špela, 2021: Evalvacija uporabniškega vmesnika Kolokacijskega slovarja sodobne slovenščine. Kosem, Iztok (ur.): Kolokacije v slovenščini. Ljubljana: Znanstvena založba Filozofske fakultete. 235–268. DOI: https://doi.org/10.4312/9789610605379. DOI: https://doi.org/10.4312/9789610605379
Rundell, Michael idr. (ur.), 2010: Macmillan Collocations Dictionary for Learners of English. Oxford: Macmillan Education.
Storjohann, Petra, 2005: Elexiko: A Corpus-Based Monolingual German Dictionary. Hermes, Journal of Linguistics 34. 55–82. https://ids-pub.bsz-bw.de/frontdoor/deliver/index/docId/5005/file/Storjohann_elexiko_A_Corpus_Based_Monolingual_German_Dictionary_2005.pdf. (Dostop 30. 11. 2023.) DOI: https://doi.org/10.7146/hjlcb.v18i34.25800
Žagar, Aleš, Kavaš, Matic in Robnik Šikonja, Marko, 2021: Corpus KAS 2.0: Cleaner and with New Datasets. Luštrek, Mitja idr. (ur.): Informacijska družba – IS 2021: Zbornik 24. mednarodne multikonference: 4.-8. oktober 2021, Ljubljana, Slovenia. Ljubljana: Institut „Jožef Stefan“. https://doi.org/10.5281/zenodo.5562228. (Dostop 30. 11. 2023.)
Prenosi
Objavljeno
Številka
Rubrika
Licenca
Avtorske pravice (c) 2023 Polona Gantar, Špela Arhar Holdt, Iztok Kosem, Simon Krek
To delo je licencirano pod Creative Commons Priznanje avtorstva-Deljenje pod enakimi pogoji 4.0 mednarodno licenco.