The value of the Janes corpus for Slovenian language standardization

Authors

  • Špela Arhar Holdt Faculty of Arts, University of Ljubljana Trojina, Institute for Applied Slovene Studies
  • Kaja Dobrovoljc Trojina, Institute for Applied Slovene Studies

DOI:

https://doi.org/10.4312/slo2.0.2016.2.1-37

Keywords:

Janes corpus, Kres corpus, language standardisation, intuitiveness of language rules, nonagreeing premodifier

Abstract

The main objective of this article is to assess the value of the Janes corpus for research in the field of language standardization. Unlike the existing reference corpora of written Slovenian, the newly available Janes corpus of user-generated content mostly consists of texts that have not been modified by a proofreading expert; it therefore offers a more realistic insight into the trends of language use, as well as the intuitiveness of existing language rules, within a wider language community. We illustrate this methodological potential in a case study of nominal phrases with nonagreeing premodifiers, such as solo petje and RTV prispevek, by comparing their usage in Janes and the reference Kres corpus. The results reveal: this type of phrases is used more often in Janes and includes a longer list of candidates than in Kres; both corpora include a large number of phrases with variant spelling as either one or two words, irrespective of the premodifier in question; and, somewhat surprising, Janes displays a more consistent language use, suggesting that prescriptive regulation actually increases the level of inconsistency in language use. The article, a revised and enhanced extension of a prior conference paper, concludes with a discussion on possible future approaches to this linguistic issue and advocates for inclusion of Janes into Slovenian language standardisation methodology.

Downloads

Download data is not yet available.

References

Arhar Holdt, Š., Čibej, J. in Zwitter Vitez, A. (2015): S pomočjo uporabniških jezikovnih vprašanj in mnenj do boljšega slovarja. Gorjanc in dr. (ur.): Slovar sodobne slovenščine: problemi in rešitve: 196–214. Ljubljana: Znanstvena založba Filozofske fakultete UL.

Arhar Holdt, Š. in Dobrovoljc, K. (2015): Zveze samostalnika z nesklonljivim levim prilastkom v korpusih Janes in Kres. V D. Fišer (ur.): Zbornik konference Slovenščina na spletu in v novih medijih: 4–9. Ljubljana: Znanstvena založba Filozofske fakultete.

Crystal, D. (2011): Internet Linguistics: A Student Guide. London, New York: Routledge.

Černelič-Kozlevčar, I. (1988): Reševanje besednovrstnih vprašanj v Slovarju slovenskega knjižnega jezika. Sodobni slovenski jezik, književnost in kultura (Obdobja 8): 289–300. Ljubljana: Univerza Edvarda Kardelja, Znanstveni inštitut Filozofske fakultete.

Čibej, J., Fišer, D. in Erjavec, T. (2016): Normalisation, Tokenisation and Sentence Segmentation of Slovene Tweets. Proceedings of the 10th Language Resources and Evaluation Conference, v tisku. Portorož: ELRA.

Dobrovoljc, H. (2008): Vpliv variantnega predpisa na jezikovno rabo (Šest let po izidu Slovenskega pravopisa 2001). V M. Jesenšek (ur.): Od Megiserja do elektronske izdaje Pleteršnikovega slovarja: 84–109. Maribor: Filozofska fakulteta.

Dobrovoljc, H. (2013): Smernice jezikovne standardizacije v teoriji, izročilu in praksi. V A. Žele (ur.): Družbena funkcijskost jezika: vidiki, merila, opredelitve (Obdobja 32): 93–99. Ljubljana: Znanstvena založba Filozofske fakultete.

Dobrovoljc, H. in Jakop, N. (2011): Sodobni pravopisni priročnik med normo in predpisom. Ljubljana: Založba ZRC.

Dobrovoljc, K., Krek, S., Holozan, P., Erjavec, T., in Romih, M. (2015): Morphological lexicon Sloleks 1.2. Dostopno prek: http://hdl.handle.net/11356/1039.

Erjavec, T., Ignat, C., Pouliquen, B., in Steinberger, R. (2005): Massive multi-lingual corpus compilation: Acquis Communautaire and totale. Proceedings of the 2nd Language & Technology Conference: 32–36. Poznan, Poland.

Erjavec, T., in Krek, S. (2008): Oblikoskladenjska priporočila in označeni korpusi JOS. Zbornik Šeste konference Jezikovne tehnologije: 49–53. Ljubljana: Institut »Jožef Stefan«

Fišer, D., Erjavec, T., Čibej, J. in Ljubešić, N. (2015): Gradnja in analiza korpusa spletne slovenščine JANES. V M. Smolej (ur.): Slovnica in slovar - aktualni jezikovni opis: 217-223. Ljubljana: Znanstvena založba Filozofske fakultete.

Fran, slovarji Inštituta za slovenski jezik Frana Ramovša ZRC SAZU, 2014–, različica 3.0. Dostopno prek: www.fran.si (15. 4. 2016).

Gantar, P. (2015): Leksikografski opis slovenščine v digitalnem okolju. Ljubljana: Znanstvena založba Filozofske fakultete.

Gantar, P., Krek, S., Kosem, I., Šorli, M., Grabnar, K., Pobirk, O., Zaranšek, P. in Drstvenšek, N. (2012): Leksikalna baza za slovenščino. [Ljubljana]: Ministrstvo za izobraževanje, znanost, kulturo in šport.

Gložančev, A. (2012): Novejša slovenska leksika v luči obravnavae samostalniških zloženk v Slovenskem pravopisu 2001. V H. Dobrovoljc in N. Jakop (ur.): Pravopisna stikanja: Razprave o pravopisnih vprašanjih: 125–39. Ljubljana: Založba ZRC.

Grčar, M., Krek, S., in Dobrovoljc, K. (2012): Obeliks: statistični oblikoskladenjski označevalnik in lematizator za slovenski jezik. Zbornik Osme konference Jezikovne tehnologije: 89–94. Ljubljana: Institut »Jožef Stefan«.

Jakop, N. (2008): Pravopis in spletni forumi - kva dogaja? V M. Košuta (ur.): Slovenščina med kulturami: 315–27. Celovec: Slavistično društvo Slovenije.

Kern, B. (2012). Pisanje skupaj in narazen v Slovarju novejšega besedja slovenska jezika. V H. Dobrovoljc in N. Jakop (ur.): Pravopisna stikanja: Razprave o pravopisnih vprašanjih: 141–49. Ljubljana: Založba ZRC.
Korošec, T. (1967): O novejši tvorbi sklopov v slovenščini. Gospodarski vestnik, 12. 5. 1967: 180–87.

Krek, S., Gantar, P., Arhar Holdt, Š. in Gorjanc, V. (2016): Nadgradnja korpusov Gigafida, Kres, ccGigafida in ccKres. Konferenca Jezikovne tehnologije in digitalna humanistika 2016, v pripravi.

Krek, S., Erjavec, T., Dobrovoljc, K., Može, S., Ledinek, N. in Holz, N. (2015): Training corpus ssj500k 1.4. Dostopno prek: http://hdl.handle.net/11356/1052.

Ljubešić, N., Erjavec, T., in Fišer, D. (2014): Standardizing tweets with character-level machine translation. CICLing: 15th International Conference on Intelligent Text Processing and Computational Linguistics, Lecture notes in computer science: 164–175. Kathmandu, Nepal.
Logar, N., Grčar, M., Brakus, M., Erjavec, T., Arhar Holdt, Š. in Krek, S. (2012): Korpusi slovenskega jezika Gigafida, KRES, ccGigafida in ccKRES: gradnja, vsebina, uporaba. Ljubljana: Trojina, zavod za uporabno slovenistiko: Fakulteta za družbene vede.

Logar, N. (2005): Filter vrečka ali filtervrečka, foto posnetek ali fotoposnetek, ISDN paket ali ISDN-paket? V M. Jesenšek (ur.): Knjižno in narečno besedoslovje slovenskega jezika: 222–49. Maribor: Slavistično društvo.

Logar, N. (2012): Razmejitev med besednimi zvezami in zloženkami v sodobnem jezikovnem gradivu. V H. Dobrovoljc in N. Jakop (ur.): Pravopisna stikanja: Razprave o pravopisnih vprašanjih: 113–23. Ljubljana: Založba ZRC.

Logar, N., Dobrovoljc, K. in Arhar Holdt, Š. (2015): Gigafida: Interpretacija korpusnih podatkov. V M. Smolej (ur.): Slovnica in slovar - aktualni jezikovni opis: 467–77. Ljubljana: Znanstvena založba Filozofske fakultete.
Michelizza, M. (2015): Spletna besedila in jezik na spletu. Ljubljana: Založba ZRC, ZRC SAZU.

Pogorelec, B. (1965): Ob Poskusnem snopiču slovarja slovenskega knjižnega jezika. JiS, 9 (7-8): 232–42.

Popič, D. (2014): Korpusnojezikoslovna analiza vplivov na slovenska prevodna besedila [doktorska disertacija]. Filozofska fakulteta UL.

Popič, D. in Fišer, D. (2015): Vejica je mrtva, živela vejica. V M. Smolej (ur.): Slovnica in slovar - aktualni jezikovni opis: 609–18. Ljubljana: Znanstvena založba Filozofske fakultete.

Rigler, J. (1971): H kritikam pravopisa, pravorečja in oblikoslovja v SSKJ. Slavistična revija, 19 (4): 433–62.

Slovar novejšega besedja (spletna različica na portalu Fran: 2014). Ljubljana: ZRC SAZU. Dostopno prek: http://www.fran.si/131/snb-slovar-novejsega-besedja (15. 4. 2016).

Slovar slovenskega knjižnega jezika (1970-1991/spletna različica na portalu Fran: 2014). Ljubljana: ZRC SAZU. Dostopno prek: http://www.fran.si/130/sskj-slovar-slovenskega-knjiznega-jezika (15. 4. 2016).

Slovenski pravopis, elektronska izdaja (1989 in 2001/spletna različica na potalu Fran: 2014). Ljubljana: Inštitut za slovenski jezik Frana Ramovša ZRC SAZU. Dostopno prek: http://www.fran.si/134/slovenski-pravopis (15. 4. 2016).

Slovenski pravopis (1950). Ljubljana: SAZU. Digitalizirana različica dostopna prek: http://pravopisi.trojina.si/ebooks/pravopis1950/pravopis1950.html (15. 4. 2016).

Slovenski pravopis (1962). Ljubljana: SAZU. Digitalizirana različica dostopna prek: http://pravopisi.trojina.si/ebooks/pravopis1962/pravopis1962.html (15. 4. 2016).

Stabej, M., Dobrovoljc, H., Krek, S., Gantar, P., Popič, D., Arhar Holdt, Š., Fišer, D. in Robnik Šikonja, M. (2016): Slovenščina Janes: Pogovorna, nestandardna, spletna ali spretna? Slovenščina 2.0, 4 (2): 101–127.

Škrjanec, I., Popič, D in Fišer, D. (2015): Arheologija začetnice pri stvarnih lastnih imenih. V D. Fišer (ur.): Zbornik konference Slovenščina na spletu in v novih medijih: 80–86. Ljubljana: Znanstvena založba Filozofske fakultete.

Toporišič, J. (1971): Pravopis, pravorečje in oblikoslovje v SSKJ I. Slavistična revija, 19 (1): 55–75.

Toporišič, J. (1974): Besednovrstna vprašanja slovenskega knjižnega jezika. Jezik in slovstvo, 20 (2–3): 33–39.

Toporišič, J. (1988): Jezikoslovje s Simpozija Obdobja 8. Slavistična revija, 36 (4): 437–49.

Vidovič Muha, A. (2011): Slovensko skladenjsko besedotvorje [druga, razširjena izdaja]. Ljubljana: Znanstvena založba Filozofske fakultete.

Published

27.09.2016

How to Cite

Arhar Holdt, Špela, & Dobrovoljc, K. (2016). The value of the Janes corpus for Slovenian language standardization. Slovenščina 2.0: Empirical, Applied and Interdisciplinary Research, 4(2), 1–37. https://doi.org/10.4312/slo2.0.2016.2.1-37