Citiranje jezikovnih podatkov v slovenskih znanstvenih objavah v obdobju 2013–2019
DOI:
https://doi.org/10.4312/slo2.0.2020.1.1-34Ključne besede:
odprta znanost, citiranje raziskovalnih podatkov, jezikovni viri, austinska načela, slovenske revije in zbornikiPovzetek
Odprta znanost temelji na prosto in odprto dostopnih znanstvenih publikacijah in podatkih. Slednji omogočajo preverjanje rezultatov predhodnih raziskav in njihovo nadgrajevanje, v kontekstu jezikovnih tehnologij in ročno označenih jezikovnih virov pa tudi šolanje novih orodij za procesiranje besedil. Vendar pa je, tako kot za znanstvene objave, tudi za podatke pomembno, da so korektno citirani, saj šele to omogoča ponovljivost raziskav, citati pa so tudi najpomembnejši pokazatelj zanimivosti in koristnosti delovanja znanstvenikov ter pomembno vplivajo na njihovo priznanost in s tem možnost pridobivanja projektov ter zaposlitev. V prispevku najprej predstavimo ti. »austinska načela« citiranja jezikovnih podatkov in opišemo tovrstne aktivnosti v sklopu infrastrukture CLARIN.SI. Nato analiziramo stanje citiranja jezikovnih podatkov, predvsem korpusov, v šestih vodilnih slovenskih jezikoslovnih znanstvenih revijah (Jezik in slovstvo, Slavistična revija, Slovenščina 2.0, Linguistica, Slovene Linguistic Studies in Jezikoslovni zapiski) ter v zbornikih dveh znanstvenih konferenc z jezikoslovno tematiko (Jezikovne tehnologije in digitalna humanistika ter Obdobja) za obdobje zadnjih sedmih let, tj. 2013–2019. Pregledali smo 1.074 znanstvenih objav in kvantitativno ter kvalitativno analizirali rezultate. S kvantitativnega vidika pokažemo, da v celotnem obdobju zgolj dobra četrtina pregledanih člankov vključuje rabo virov ter da je v poznejšem obdobju (2018–2019) raba virov v objavah več kot dvakrat pogostejša kot v zgodnejšem obdobju (2013–2017). Načine navajanja virov razvrstimo v pet kategorij (npr. navajanje hiperpovezave na vir v besedilu ter navajanje ključne publikacije o viru); pokažemo, da je raba posameznega načina v veliki meri odvisna od navodil avtorjem za posamezno publikacijo. S kvalitativnega vidika se osredotočamo predvsem na vire z vnosom v repozitoriju raziskovalne infrastrukture CLARIN.SI, za katere pokažemo, da so z redkimi izjemami neustrezno citirani. Izsledke povzamemo in po ti. »austinskih načelih« pokažemo, kaj je bilo že narejenega v sklopu infrastrukture CLARIN.SI ter predlagamo smernice za citiranje jezikoslovnih podatkov in načine za njihovo implementacijo.
Prenosi
Literatura
Arhar Holdt, Š. in Dobrovoljc, K. (2016). Vrednost korpusa Janes za slovensko normativistiko. Slovenščina 2.0, 4(2), 1–37. doi: 10.4312/slo2.0.2016.2.1-37
Arhar Holdt, Š. in Čibej, J. (2018). Morphological Patterns in the Sloleks Lexicon of Slovene: An Initial Set of Patterns for Nouns. Slovenščina 2.0, 6(2), 33–66. doi: 10.4312/slo2.0.2018.2.33-66
Arias-Badia, B., Bernal, E. in Alonso, A. (2014). An online Spanish Learners' dictionary: the Daele project. Slovenščina 2.0, 2(2), 53–71. doi: 10.4312/slo2.0.2014.2.53-71
Atelšek, S. (2019). Navajanje prevzetih jezikoslovnih terminov in celovitost pojmovnih skupin v Cigaletovi Znanstveni terminologiji (1880). Jezikoslovni zapiski, 25(1), 67–82. doi: 10.3986/jz.v25i1.7566
Bálint Čeh, J. in Kosem, I. (2017). Prvi koraki do novega velikega slovensko-madžarskega slovarja: analiza relevantnih dvojezičnih virov. Slovenščina 2.0, 5(2), 113–150. doi: 10.4312/slo2.0.2017.2.113-150
Berez-Kroeker, A. L., Gawne, L., Holton, G., Smythe Kung, S., Pulsifer, P. in Collister, L. B. (2017). The Data Citation and Attribution in Linguistics Group, & the Linguistics Data Interest Group. The Austin Principles of Data Citation in Linguistics (Version 0.1). Dostopno prek http://site.uit.no/linguisticsdatacitation/austinprinciples
Berez-Kroeker, A. L., Gawne, L., Smythe Kung, S., Kelly, B. F., Heston, T., Holton, G., Pulsifer, P., Beaver, D. I., Chelliah, S., Dubinsky, S., Meier, R. P., Thieberger, N., Rice, K. in Woodbury, A. C. (2018). Reproducible research in linguistics: A position statement on data citation and attribution in our field. Linguistics, 56(1), 1–18. doi: 10.1515/ling-2017-0032
Data Citation Synthesis Group. (2014). Joint Declaration of Data Citation Principles. Martone, M. (ur.). San Diego CA: FORCE11. doi: 10.25490/a97f-egyk
Dobrovoljc, K. (2018a). Raba tipično govorjenih diskurznih označevalcev na spletu. Slavistična revija, 66(4), 497–513. Dostopno prek https://srl.si/ojs/srl/article/view/2018-4-1-6
Dobrovoljc, K. (2018b). Formulaicity in Slovene. Slovenščina 2.0, 6(2), 67–95. doi: 10.4312/slo2.0.2018.2.67-95
Dobrovoljc, K., Krek, S., Holozan, P., Erjavec, T., Romih, M., Arhar Holdt, Š., Čibej, J., Krsnik, L. in Robnik-Šikonja, M. (2019). Morphological lexicon Sloleks 2.0. Slovenian language resource repository CLARIN.SI. Dostopno prek http://hdl.handle.net/11356/1230
Erjavec, T. (2009). Odprtost jezikovnih virov za slovenščino. V M. Stabej (ur.), Simpozij OBDOBJA 28. Dostopno prek http://centerslo.si/wp-content/uploads/2015/10/28-Erjavec.pdf
Erjavec, T., Fišer, D., Krek, S. in Ledinek, N. (2010). The JOS Linguistically Tagged Corpus of Slovene. V Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC'10). Dostopno prek http://www.lrec-conf.org/proceedings/lrec2010/summaries/139.html
Erjavec, T. (2014). Digital library and corpus of historical Slovene IMP 1.1. Slovenian language resource repository CLARIN.SI. Dostopno prek http://hdl.handle.net/11356/1031
Erjavec, T. (2015a). The IMP historical Slovene language resources. Language Resources and Evaluation, 49, 753–775. doi: 10.1007/s10579-015-9294-7
Erjavec, T. (2015b). Reference corpus of historical Slovene goo300k 1.2. Slovenian language resource repository CLARIN.SI. Dostopno prek http://hdl.handle.net/11356/1025
European Commission. (2012). Towards better access to scientific information: Boosting the benefits of public investments in research. Dostopno prek http://ec.europa.eu/research/science-society/document_library/pdf_06/era-communication-towards-better-access-to-scientific-information_en.pdf
Fišer, D., Lenardič, J. in Erjavec, T. (2018). Citiranje jezikoslovnih podatkov v slovenskih znanstvenih objavah: stanje in priporočila. V D. Fišer in A. Pančur (ur.), Zbornik konference Jezikovne tehnologije in digitalna humanistika 2018 (str. 77–84). Univerza v Ljubljani, Filozofska fakulteta.
Furlan, M. (2018). O govejem lastnem imenu Hrdagata in kletvici (h)ardigata. Jezikoslovni zapiski, 24(1), 131–141. doi: 10.3986/JZ.24.1.6938
Haspelmath, M. (2014). The Generic Style Rules for Linguistics. Zenodo. doi: 10.5281/zenodo.253501
Hudeček, K. in Mihaljević, M. (2019). Hrvatsko mocijsko nazivlje. Jezikoslovni zapiski, 25(1), 107–126. doi: 10.3986/jz.v25i1.7569
Jakop, N. (2014). Leksikalizacija prostorskih razmerij v slovenščini: jezikovnopragmatični vidik. Slavistična revija, 62(3), 353–362. Dostopno prek https://srl.si/sql_pdf/SRL_2014_3_08.pdf
Jelovšek, A. in Erjavec, T. (2019). A corpus-based study of 16th-century Slovene clitics and clitic-like elements. Slovene Linguistic Studies, 12, 3–19. Dostopno prek http://hdl.handle.net/1808/29671
Kačič, Z., Horvat, B., Zögling Markuš, A., Veronik, R., Rojc, M., Žgank, A., Sepesy Maučec, M. in Rotovnik, T. (2002). SNABI database for continuous speech recognition 1.2. Slovenian language resource repository CLARIN.SI. Dostopno prek http://hdl.handle.net/11356/1051
Kilgarriff, A. in Renau, I. (2013). esTenTen, a vast webcorpus of Peninsular and American Spanish. Procedia-Social and Behavioral Sciences, 95, 12–19. doi: 10.1016/j.sbspro.2013.10.617
Krek, S., Erjavec, T., Dobrovoljc, K., Holz, N., Ledinek, N. in Može, S. (2015). Training corpus ssj500k 1.4 Slovenian language resource repository CLARIN.SI. Dostopno prek http://hdl.handle.net/11356/1052
Krek, S., Dobrovoljc, K., Erjavec, T., Može, S., Ledinek, N., Holz, N., Zupan, K., Gantar, P., Kuzman, T., Čibej, J., Arhar Holdt, Š., Kavčič, T., Škrjanec, I., Marko, D., Jezeršek, L. in Zajc, A. (2019). Training corpus ssj500k 2.2. Slovenian language resource repository CLARIN.SI. Dostopno prek http://hdl.handle.net/11356/1210
Krvina, D. (2019). Zaporednost dejanj in njen vpliv na rabo glagolskega vida v slovenščini. Slovene Linguistic Studies, 12, 75–83. doi: 10.3986/sjsls.12.1.05
Kulčar, M. (2018). Povezanost vida in vezljivosti pri netvorjenih in predponskoobrazilno tvorjenih glagolih. Jezikoslovni zapiski, 24(1), 45–62. doi: 10.3986/JZ.24.1.6932
Ljubešić, N., Fišer, D. in Erjavec, T. (2014). TweetCaT: A tool for building Twitter corpora of smaller languages. V N. Calzolari (ur.), Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC’14) (str. 2279–2283). Reykjavik, Islandija.
Ljubešić, N. in Klubička, F. (2016). Croatian web corpus hrWaC 2.1. Slovenian language resource repository CLARIN.SI. Dostopno prek http://hdl.handle.net/11356/1064
Ljubešić, N., Miličević Petrović, M. in Samardžić, T. (2019). Jezična akomodacija na Twitteru: primjer Srbije. Slavistična revija, 67(1), 87–106. Dostopno prek https://srl.si/ojs/srl/article/view/2019-1-1-6
Logar Berginc, N., Grčar, M., Brakus, M., Erjavec, T., Arhar Holdt, Š. in Krek, S. (2012). Korpusi slovenskega jezika Gigafida, KRES, ccGigafida in ccKRES: gradnja, vsebina, uporaba. Ljubljana: Trojina, zavod za uporabno slovenistiko, Fakulteta za družbene vede. Dostopno prek https://www.fdv.uni-lj.si/docs/default-source/zalozba/pages-from-logar-et-al---korpusi.pdf?sfvrsn=2
Logar Berginc, N., Erjavec, T., Krek, S., Grčar, M. in Holozan, P. (2013). Written corpus ccKres 1.0. Slovenian language resource repository CLARIN.SI. Dostopno prek http://hdl.handle.net/11356/1034
Logar Berginc, N., Gantar, P. in Kosem, I. (2014). Collocations and examples of use: a lexical-semantic approach to terminology. Slovenščina 2.0, 2(1), 41–61. doi: 10.4312/slo2.0.2014.1.41-61
Marvin, T., Derganc, J., Beguš, S. in Battelino, S. (2018). Word Selection in the Slovenian Sentence Matrix Test for Speech Audiometry. V D. Fišer in A. Pančur (ur.), Zbornik konference Jezikovne tehnologije in digitalna humanistika 2018 (str. 181–187). Univerza v Ljubljani, Filozofska fakulteta.
Marvin, T., Battelino, S., Beguš, S. in Derganc, J. (2019). Porazdelitev fonemov v slovenščini in izdelava matričnega testa za govorno avdiometrijo. Slavistična revija, 67(4), 537–550. Dostopno prek https://srl.si/ojs/srl/article/view/2019-4-1-1
Meterc, M. (2013). Antonimija enako motiviranih paremioloških enot (primeri iz slovenščine in slovaščine). Slavistična revija, 61(2), 361–376. Dostopno prek https://srl.si/sql_pdf/SRL_2013_2_02.pdf
Orel, I. (2019). Ženske dvojinske glagolske oblike v starejšem slovenskem knjižnem jeziku. Slavistična revija, 67(2), 273–280. Dostopno prek https://srl.si/ojs/srl/article/view/2019-2-1-15
Petrič, T. (2019). Modal Particles in German Declarative Sentences and their Slovenian Counterparts. Linguistica, 59(1), 235–251. doi: 10.4312/linguistica.59.1.235-251
Pisanski Peterlin, A. in Mikolič Južnjič, T. (2018). Subject Personal Pronouns in Slovene: Pragmatic Aspects of a Grammatical Category. Slovenščina 2.0, 6(2), 127–153. doi: 10.4312/slo2.0.2018.2.127-153
Polajnar, J. (2013). Neprodani in trdni. Ja, seveda, potem pa svizec ... Osamosvajanje oglasnih sloganov v slovenskem jeziku. Jezik in slovstvo, 58(3), 3–19. Dostopno prek https://www.jezikinslovstvo.com/pdf.php?part=2013|3|3%E2%80%9319
Pori, E. in Kosem, I. (2018). In the Search of Lexicographically Relevant Collocation: The Example of Grammatical Relations Containing Adverbs. Slovenščina 2.0, 6(2), 154–185. doi: 10.4312/slo2.0.2018.2.154-185
Rath, A. (2019). Anmerkung zur slowenischen Klitikakette (naslonski niz). Slovene Linguistic Studies, 12, 95–112. doi: 10.3986/sjsls.12.1.06
Rozman, T., Stritar Kučuk, M., Kosem, I., Krek, S., Krapš Vodopivec, I., Arhar Holdt, Š. in Stabej, M. (2013). Learners' corpus Šolar 1.0. Slovenian language resource repository CLARIN.SI. Dostopno prek http://hdl.handle.net/11356/1036
Rozman, T., Arhar Holdt, Š., Pollak, S. in Kosem, I. (2018). Kolokacije v korpusu Šolar. Jezik in slovstvo, 63(2–3), 117–128. Dostopno prek https://www.jezikinslovstvo.com/pdf.php?part=2018|2-3|117-128.
Sharoff, S. (2006). Creating general-purpose corpora using automated search engine queries. WaCky! Working papers on the Web as Corpus. Dostopno prek http://wackybook.sslmit.unibo.it/pdfs/sharoff.pdf
Stopar, A. in Ilc, G. (2019). Stilistična (ne)zaznamovanost moških in ženskih poimenovalnih parov za poklice v angleščini in slovenščini. Slavistična revija, 67(2), 333–342. Dostopno prek https://srl.si/ojs/srl/article/view/2019-2-1-21
Stramljič Breznik, I. (2018). Ženske ne povedo nič pametnega: jezikovnokorpusna analiza stereotipa. Jezikoslovni zapiski, 24(1), 27–44. doi: 10.3986/JZ.24.1.6931
Štebe, J., Bezjak, S. in Vipavc Brvar, I. (2015). Priprava raziskovalnih podatkov za odprt dostop. Priročnik za raziskovalce. Ljubljana: Založba FDV. Dostopno prek https://www.dlib.si/details/URN:NBN:SI:DOC-06SLBVXX
Štebe, J., Dolinar, M. in Bezjak, S. (2019). Smernice za oblikovanje politik znanstvenih založb glede navajanja raziskovalnih podatkov v znanstvenih publikacijah in zagotavljanja dostopa do primarnih podatkov, uporabljenih v člankih (Verzija 2.3.). Dostopno prek https://www.rd-alliance.org/system/files/documents/Smernice_za_razvoj_politike_zalo%C5%BEb_RDA_Slovenija_V2_3.pdf
Štumberger, S. (2015). Slovaropisna obravnava novejše leksike. Slovene Linguistic Studies, 10, 153–166. Dostopno prek https://ojs.zrc-sazu.si/sjsls/article/view/7365
Trivunović, E. (2019). Diahrono raziskovanje biblijskih in izbiblijskih frazemov. Jezikoslovni zapiski, 25(2), 47–61. doi: 10.3986/JZ.25.2.3
Uhlik, M. in Žele, A. (2018). Brezosebne zgradbe v slovenščini: kontrastiva z drugimi južnoslovanskimi jeziki in ruščino. Jezikoslovni zapiski, 24(2), 99–112. doi: 10.3986/jz.v24i2.7112
Verdonik, D., Potočnik, T., Sepesy Maučec, M. in Erjavec, T. (2016). Spoken corpus Gos VideoLectures 1.0 (transcription). Slovenian language resource repository CLARIN.SI. Dostopno prek http://hdl.handle.net/11356/1069
Verdonik, D., Potočnik, T., Sepesy Maučec, M. in Erjavec, T. (2017). Spoken corpus Gos VideoLectures 2.0 (transcription). Slovenian language resource repository CLARIN.SI. Dostopno prek http://hdl.handle.net/11356/1158
Vidovič Muha, A. (2015). Propozicija v funkcijski strukturi stavčne povedi – vprašanje besednih vrst (poudarek na povedkovniku in členku). Slavistična revija, 63(4), 389–406. Dostopno prek https://srl.si/sql_pdf/SRL_2015_4_04.pdf
Vončina, M. (2016). Zaključena znanstvena zbirka podatkov – primeri katalogizacije in Sicris vrednotenja. [Delavnica ADP, 26. 10. 2016.] Dostopno prek https://www.adp.fdv.uni-lj.si/adp_delavnica_okt2016/presentations/2016_MiraVoncina_Znanstvena_zbirka_podatkov.pdf
Zwitter Vitez, A., Zemljarič Miklavčič, J., Krek, S., Stabej, M. in Erjavec, T. (2013). Spoken corpus Gos 1.0. Slovenian language resource repository CLARIN.SI. Dostopno prek http://hdl.handle.net/11356/1040
Zwitter Vitez, A. (2018). Enota analize spontanega govora: interakcija prozodije, pragmatike in skladnje. Jezik in slovstvo, 63(2–3), 157–175. Dostopno prek https://www.jezikinslovstvo.com/pdf.php?part=2018|2-3|157-175
Žele, A. (2014). Členki tudi kot vnašalniki novih prostorskih razmerij v obstoječe sporočilo. Slavistična revija, 62(3), 321–330. Dostopno prek https://srl.si/sql_pdf/SRL_2014_3_05.pdf
Žele, A. (2018). O aktualnostnočlenitveni stavi v slovenščini. Jezik in slovstvo, 63(2–3), 59–73.
Žitnik, S., Šubelj, L. in Bajec, M. (2014). SkipCor: Skip-mention coreference resolution using linear-chain conditional random fields. PloS one, 9(6), e100101. doi: 10.1371/journal.pone.0100101
Žitnik, S., Draskovic, D., Nikolić, B. in Bajec, M. (2017). nutIE—A modern open source natural language processing toolkit. Proceedings of the 25th Telecommunication Forum (TELFOR), 1–4. doi: 10.1109/TELFOR.2017.8249486
Žitnik, S. in Bajec, M. (2018). Coreference Resolution for Slovene on Annotated Data from coref149. Slovenščina 2.0, 6(1), 37–67. doi: 10.4312/slo2.0.2018.1.37-67
Prenosi
Objavljeno
Številka
Rubrika
Licenca
Avtorske pravice (c) 2020 Jakob Lenardič, Tomaž Erjavec, Darja Fišer
To delo je licencirano pod Creative Commons Priznanje avtorstva-Deljenje pod enakimi pogoji 4.0 mednarodno licenco.