Vrednost korpusa Janes za slovensko normativistiko
DOI:
https://doi.org/10.4312/slo2.0.2016.2.1-37Ključne besede:
korpus Janes, korpus Kres, normativistika, intuitivnost jezikovnih pravil, neujemalni levi prilastekPovzetek
Namen pričujočega prispevka je preveriti vrednost korpusa Janes za normativistične raziskave. Korpus Janes namreč prinaša besedila, ki za razliko od gradiva v referenčnih korpusih večinoma niso jezikovno korigirana in zato realneje izkazuje tendence rabe oz. (ne)intuitivnost obstoječih jezikovnih pravil v širši jezikovni skupnosti. Za študijo primera smo izbrali zveze samostalnika z neujemalnim levim prilastkom (solo petje, RTV prispevek). Analiza razkriva: da se referenčni korpus Kres in korpus Janes glede zapisa teh zvez pomembno razlikujeta; da je raba tovrstnih zvez v korpusu Janes pogostejša in bolj raznolika kot v korpusu Kres; da se v obeh korpusih pojavlja visok delež zvez, ki v rabi izkazujejo variantnost v zapisovanju, tudi na ravni posameznih prilastkov; in – vsaj na prvi pogled – presenetljivo, da je raba v korpusu Janes konsistentnejša, kar nakazuje, da jezikovna regulacija obravnavanega problema povečuje variantnost v jezikovni rabi. Prispevek temelji na konferenčni temi, ki smo jo podatkovno in vsebinsko razširili, vključili smo tudi razpravo o možni nadaljnji obravnavi izbranega jezikovnega problema, širše pa o pomenu in načinu vključitve korpusa Janes v metodologijo slovenske normativistike.Prenosi
Podatki o prenosih še niso na voljo.
Literatura
Arhar Holdt, Š., Čibej, J. in Zwitter Vitez, A. (2015): S pomočjo uporabniških jezikovnih vprašanj in mnenj do boljšega slovarja. Gorjanc in dr. (ur.): Slovar sodobne slovenščine: problemi in rešitve: 196–214. Ljubljana: Znanstvena založba Filozofske fakultete UL.
Arhar Holdt, Š. in Dobrovoljc, K. (2015): Zveze samostalnika z nesklonljivim levim prilastkom v korpusih Janes in Kres. V D. Fišer (ur.): Zbornik konference Slovenščina na spletu in v novih medijih: 4–9. Ljubljana: Znanstvena založba Filozofske fakultete.
Crystal, D. (2011): Internet Linguistics: A Student Guide. London, New York: Routledge.
Černelič-Kozlevčar, I. (1988): Reševanje besednovrstnih vprašanj v Slovarju slovenskega knjižnega jezika. Sodobni slovenski jezik, književnost in kultura (Obdobja 8): 289–300. Ljubljana: Univerza Edvarda Kardelja, Znanstveni inštitut Filozofske fakultete.
Čibej, J., Fišer, D. in Erjavec, T. (2016): Normalisation, Tokenisation and Sentence Segmentation of Slovene Tweets. Proceedings of the 10th Language Resources and Evaluation Conference, v tisku. Portorož: ELRA.
Dobrovoljc, H. (2008): Vpliv variantnega predpisa na jezikovno rabo (Šest let po izidu Slovenskega pravopisa 2001). V M. Jesenšek (ur.): Od Megiserja do elektronske izdaje Pleteršnikovega slovarja: 84–109. Maribor: Filozofska fakulteta.
Dobrovoljc, H. (2013): Smernice jezikovne standardizacije v teoriji, izročilu in praksi. V A. Žele (ur.): Družbena funkcijskost jezika: vidiki, merila, opredelitve (Obdobja 32): 93–99. Ljubljana: Znanstvena založba Filozofske fakultete.
Dobrovoljc, H. in Jakop, N. (2011): Sodobni pravopisni priročnik med normo in predpisom. Ljubljana: Založba ZRC.
Dobrovoljc, K., Krek, S., Holozan, P., Erjavec, T., in Romih, M. (2015): Morphological lexicon Sloleks 1.2. Dostopno prek: http://hdl.handle.net/11356/1039.
Erjavec, T., Ignat, C., Pouliquen, B., in Steinberger, R. (2005): Massive multi-lingual corpus compilation: Acquis Communautaire and totale. Proceedings of the 2nd Language & Technology Conference: 32–36. Poznan, Poland.
Erjavec, T., in Krek, S. (2008): Oblikoskladenjska priporočila in označeni korpusi JOS. Zbornik Šeste konference Jezikovne tehnologije: 49–53. Ljubljana: Institut »Jožef Stefan«
Fišer, D., Erjavec, T., Čibej, J. in Ljubešić, N. (2015): Gradnja in analiza korpusa spletne slovenščine JANES. V M. Smolej (ur.): Slovnica in slovar - aktualni jezikovni opis: 217-223. Ljubljana: Znanstvena založba Filozofske fakultete.
Fran, slovarji Inštituta za slovenski jezik Frana Ramovša ZRC SAZU, 2014–, različica 3.0. Dostopno prek: www.fran.si (15. 4. 2016).
Gantar, P. (2015): Leksikografski opis slovenščine v digitalnem okolju. Ljubljana: Znanstvena založba Filozofske fakultete.
Gantar, P., Krek, S., Kosem, I., Šorli, M., Grabnar, K., Pobirk, O., Zaranšek, P. in Drstvenšek, N. (2012): Leksikalna baza za slovenščino. [Ljubljana]: Ministrstvo za izobraževanje, znanost, kulturo in šport.
Gložančev, A. (2012): Novejša slovenska leksika v luči obravnavae samostalniških zloženk v Slovenskem pravopisu 2001. V H. Dobrovoljc in N. Jakop (ur.): Pravopisna stikanja: Razprave o pravopisnih vprašanjih: 125–39. Ljubljana: Založba ZRC.
Grčar, M., Krek, S., in Dobrovoljc, K. (2012): Obeliks: statistični oblikoskladenjski označevalnik in lematizator za slovenski jezik. Zbornik Osme konference Jezikovne tehnologije: 89–94. Ljubljana: Institut »Jožef Stefan«.
Jakop, N. (2008): Pravopis in spletni forumi - kva dogaja? V M. Košuta (ur.): Slovenščina med kulturami: 315–27. Celovec: Slavistično društvo Slovenije.
Kern, B. (2012). Pisanje skupaj in narazen v Slovarju novejšega besedja slovenska jezika. V H. Dobrovoljc in N. Jakop (ur.): Pravopisna stikanja: Razprave o pravopisnih vprašanjih: 141–49. Ljubljana: Založba ZRC.
Korošec, T. (1967): O novejši tvorbi sklopov v slovenščini. Gospodarski vestnik, 12. 5. 1967: 180–87.
Krek, S., Gantar, P., Arhar Holdt, Š. in Gorjanc, V. (2016): Nadgradnja korpusov Gigafida, Kres, ccGigafida in ccKres. Konferenca Jezikovne tehnologije in digitalna humanistika 2016, v pripravi.
Krek, S., Erjavec, T., Dobrovoljc, K., Može, S., Ledinek, N. in Holz, N. (2015): Training corpus ssj500k 1.4. Dostopno prek: http://hdl.handle.net/11356/1052.
Ljubešić, N., Erjavec, T., in Fišer, D. (2014): Standardizing tweets with character-level machine translation. CICLing: 15th International Conference on Intelligent Text Processing and Computational Linguistics, Lecture notes in computer science: 164–175. Kathmandu, Nepal.
Logar, N., Grčar, M., Brakus, M., Erjavec, T., Arhar Holdt, Š. in Krek, S. (2012): Korpusi slovenskega jezika Gigafida, KRES, ccGigafida in ccKRES: gradnja, vsebina, uporaba. Ljubljana: Trojina, zavod za uporabno slovenistiko: Fakulteta za družbene vede.
Logar, N. (2005): Filter vrečka ali filtervrečka, foto posnetek ali fotoposnetek, ISDN paket ali ISDN-paket? V M. Jesenšek (ur.): Knjižno in narečno besedoslovje slovenskega jezika: 222–49. Maribor: Slavistično društvo.
Logar, N. (2012): Razmejitev med besednimi zvezami in zloženkami v sodobnem jezikovnem gradivu. V H. Dobrovoljc in N. Jakop (ur.): Pravopisna stikanja: Razprave o pravopisnih vprašanjih: 113–23. Ljubljana: Založba ZRC.
Logar, N., Dobrovoljc, K. in Arhar Holdt, Š. (2015): Gigafida: Interpretacija korpusnih podatkov. V M. Smolej (ur.): Slovnica in slovar - aktualni jezikovni opis: 467–77. Ljubljana: Znanstvena založba Filozofske fakultete.
Michelizza, M. (2015): Spletna besedila in jezik na spletu. Ljubljana: Založba ZRC, ZRC SAZU.
Pogorelec, B. (1965): Ob Poskusnem snopiču slovarja slovenskega knjižnega jezika. JiS, 9 (7-8): 232–42.
Popič, D. (2014): Korpusnojezikoslovna analiza vplivov na slovenska prevodna besedila [doktorska disertacija]. Filozofska fakulteta UL.
Popič, D. in Fišer, D. (2015): Vejica je mrtva, živela vejica. V M. Smolej (ur.): Slovnica in slovar - aktualni jezikovni opis: 609–18. Ljubljana: Znanstvena založba Filozofske fakultete.
Rigler, J. (1971): H kritikam pravopisa, pravorečja in oblikoslovja v SSKJ. Slavistična revija, 19 (4): 433–62.
Slovar novejšega besedja (spletna različica na portalu Fran: 2014). Ljubljana: ZRC SAZU. Dostopno prek: http://www.fran.si/131/snb-slovar-novejsega-besedja (15. 4. 2016).
Slovar slovenskega knjižnega jezika (1970-1991/spletna različica na portalu Fran: 2014). Ljubljana: ZRC SAZU. Dostopno prek: http://www.fran.si/130/sskj-slovar-slovenskega-knjiznega-jezika (15. 4. 2016).
Slovenski pravopis, elektronska izdaja (1989 in 2001/spletna različica na potalu Fran: 2014). Ljubljana: Inštitut za slovenski jezik Frana Ramovša ZRC SAZU. Dostopno prek: http://www.fran.si/134/slovenski-pravopis (15. 4. 2016).
Slovenski pravopis (1950). Ljubljana: SAZU. Digitalizirana različica dostopna prek: http://pravopisi.trojina.si/ebooks/pravopis1950/pravopis1950.html (15. 4. 2016).
Slovenski pravopis (1962). Ljubljana: SAZU. Digitalizirana različica dostopna prek: http://pravopisi.trojina.si/ebooks/pravopis1962/pravopis1962.html (15. 4. 2016).
Stabej, M., Dobrovoljc, H., Krek, S., Gantar, P., Popič, D., Arhar Holdt, Š., Fišer, D. in Robnik Šikonja, M. (2016): Slovenščina Janes: Pogovorna, nestandardna, spletna ali spretna? Slovenščina 2.0, 4 (2): 101–127.
Škrjanec, I., Popič, D in Fišer, D. (2015): Arheologija začetnice pri stvarnih lastnih imenih. V D. Fišer (ur.): Zbornik konference Slovenščina na spletu in v novih medijih: 80–86. Ljubljana: Znanstvena založba Filozofske fakultete.
Toporišič, J. (1971): Pravopis, pravorečje in oblikoslovje v SSKJ I. Slavistična revija, 19 (1): 55–75.
Toporišič, J. (1974): Besednovrstna vprašanja slovenskega knjižnega jezika. Jezik in slovstvo, 20 (2–3): 33–39.
Toporišič, J. (1988): Jezikoslovje s Simpozija Obdobja 8. Slavistična revija, 36 (4): 437–49.
Vidovič Muha, A. (2011): Slovensko skladenjsko besedotvorje [druga, razširjena izdaja]. Ljubljana: Znanstvena založba Filozofske fakultete.
Arhar Holdt, Š. in Dobrovoljc, K. (2015): Zveze samostalnika z nesklonljivim levim prilastkom v korpusih Janes in Kres. V D. Fišer (ur.): Zbornik konference Slovenščina na spletu in v novih medijih: 4–9. Ljubljana: Znanstvena založba Filozofske fakultete.
Crystal, D. (2011): Internet Linguistics: A Student Guide. London, New York: Routledge.
Černelič-Kozlevčar, I. (1988): Reševanje besednovrstnih vprašanj v Slovarju slovenskega knjižnega jezika. Sodobni slovenski jezik, književnost in kultura (Obdobja 8): 289–300. Ljubljana: Univerza Edvarda Kardelja, Znanstveni inštitut Filozofske fakultete.
Čibej, J., Fišer, D. in Erjavec, T. (2016): Normalisation, Tokenisation and Sentence Segmentation of Slovene Tweets. Proceedings of the 10th Language Resources and Evaluation Conference, v tisku. Portorož: ELRA.
Dobrovoljc, H. (2008): Vpliv variantnega predpisa na jezikovno rabo (Šest let po izidu Slovenskega pravopisa 2001). V M. Jesenšek (ur.): Od Megiserja do elektronske izdaje Pleteršnikovega slovarja: 84–109. Maribor: Filozofska fakulteta.
Dobrovoljc, H. (2013): Smernice jezikovne standardizacije v teoriji, izročilu in praksi. V A. Žele (ur.): Družbena funkcijskost jezika: vidiki, merila, opredelitve (Obdobja 32): 93–99. Ljubljana: Znanstvena založba Filozofske fakultete.
Dobrovoljc, H. in Jakop, N. (2011): Sodobni pravopisni priročnik med normo in predpisom. Ljubljana: Založba ZRC.
Dobrovoljc, K., Krek, S., Holozan, P., Erjavec, T., in Romih, M. (2015): Morphological lexicon Sloleks 1.2. Dostopno prek: http://hdl.handle.net/11356/1039.
Erjavec, T., Ignat, C., Pouliquen, B., in Steinberger, R. (2005): Massive multi-lingual corpus compilation: Acquis Communautaire and totale. Proceedings of the 2nd Language & Technology Conference: 32–36. Poznan, Poland.
Erjavec, T., in Krek, S. (2008): Oblikoskladenjska priporočila in označeni korpusi JOS. Zbornik Šeste konference Jezikovne tehnologije: 49–53. Ljubljana: Institut »Jožef Stefan«
Fišer, D., Erjavec, T., Čibej, J. in Ljubešić, N. (2015): Gradnja in analiza korpusa spletne slovenščine JANES. V M. Smolej (ur.): Slovnica in slovar - aktualni jezikovni opis: 217-223. Ljubljana: Znanstvena založba Filozofske fakultete.
Fran, slovarji Inštituta za slovenski jezik Frana Ramovša ZRC SAZU, 2014–, različica 3.0. Dostopno prek: www.fran.si (15. 4. 2016).
Gantar, P. (2015): Leksikografski opis slovenščine v digitalnem okolju. Ljubljana: Znanstvena založba Filozofske fakultete.
Gantar, P., Krek, S., Kosem, I., Šorli, M., Grabnar, K., Pobirk, O., Zaranšek, P. in Drstvenšek, N. (2012): Leksikalna baza za slovenščino. [Ljubljana]: Ministrstvo za izobraževanje, znanost, kulturo in šport.
Gložančev, A. (2012): Novejša slovenska leksika v luči obravnavae samostalniških zloženk v Slovenskem pravopisu 2001. V H. Dobrovoljc in N. Jakop (ur.): Pravopisna stikanja: Razprave o pravopisnih vprašanjih: 125–39. Ljubljana: Založba ZRC.
Grčar, M., Krek, S., in Dobrovoljc, K. (2012): Obeliks: statistični oblikoskladenjski označevalnik in lematizator za slovenski jezik. Zbornik Osme konference Jezikovne tehnologije: 89–94. Ljubljana: Institut »Jožef Stefan«.
Jakop, N. (2008): Pravopis in spletni forumi - kva dogaja? V M. Košuta (ur.): Slovenščina med kulturami: 315–27. Celovec: Slavistično društvo Slovenije.
Kern, B. (2012). Pisanje skupaj in narazen v Slovarju novejšega besedja slovenska jezika. V H. Dobrovoljc in N. Jakop (ur.): Pravopisna stikanja: Razprave o pravopisnih vprašanjih: 141–49. Ljubljana: Založba ZRC.
Korošec, T. (1967): O novejši tvorbi sklopov v slovenščini. Gospodarski vestnik, 12. 5. 1967: 180–87.
Krek, S., Gantar, P., Arhar Holdt, Š. in Gorjanc, V. (2016): Nadgradnja korpusov Gigafida, Kres, ccGigafida in ccKres. Konferenca Jezikovne tehnologije in digitalna humanistika 2016, v pripravi.
Krek, S., Erjavec, T., Dobrovoljc, K., Može, S., Ledinek, N. in Holz, N. (2015): Training corpus ssj500k 1.4. Dostopno prek: http://hdl.handle.net/11356/1052.
Ljubešić, N., Erjavec, T., in Fišer, D. (2014): Standardizing tweets with character-level machine translation. CICLing: 15th International Conference on Intelligent Text Processing and Computational Linguistics, Lecture notes in computer science: 164–175. Kathmandu, Nepal.
Logar, N., Grčar, M., Brakus, M., Erjavec, T., Arhar Holdt, Š. in Krek, S. (2012): Korpusi slovenskega jezika Gigafida, KRES, ccGigafida in ccKRES: gradnja, vsebina, uporaba. Ljubljana: Trojina, zavod za uporabno slovenistiko: Fakulteta za družbene vede.
Logar, N. (2005): Filter vrečka ali filtervrečka, foto posnetek ali fotoposnetek, ISDN paket ali ISDN-paket? V M. Jesenšek (ur.): Knjižno in narečno besedoslovje slovenskega jezika: 222–49. Maribor: Slavistično društvo.
Logar, N. (2012): Razmejitev med besednimi zvezami in zloženkami v sodobnem jezikovnem gradivu. V H. Dobrovoljc in N. Jakop (ur.): Pravopisna stikanja: Razprave o pravopisnih vprašanjih: 113–23. Ljubljana: Založba ZRC.
Logar, N., Dobrovoljc, K. in Arhar Holdt, Š. (2015): Gigafida: Interpretacija korpusnih podatkov. V M. Smolej (ur.): Slovnica in slovar - aktualni jezikovni opis: 467–77. Ljubljana: Znanstvena založba Filozofske fakultete.
Michelizza, M. (2015): Spletna besedila in jezik na spletu. Ljubljana: Založba ZRC, ZRC SAZU.
Pogorelec, B. (1965): Ob Poskusnem snopiču slovarja slovenskega knjižnega jezika. JiS, 9 (7-8): 232–42.
Popič, D. (2014): Korpusnojezikoslovna analiza vplivov na slovenska prevodna besedila [doktorska disertacija]. Filozofska fakulteta UL.
Popič, D. in Fišer, D. (2015): Vejica je mrtva, živela vejica. V M. Smolej (ur.): Slovnica in slovar - aktualni jezikovni opis: 609–18. Ljubljana: Znanstvena založba Filozofske fakultete.
Rigler, J. (1971): H kritikam pravopisa, pravorečja in oblikoslovja v SSKJ. Slavistična revija, 19 (4): 433–62.
Slovar novejšega besedja (spletna različica na portalu Fran: 2014). Ljubljana: ZRC SAZU. Dostopno prek: http://www.fran.si/131/snb-slovar-novejsega-besedja (15. 4. 2016).
Slovar slovenskega knjižnega jezika (1970-1991/spletna različica na portalu Fran: 2014). Ljubljana: ZRC SAZU. Dostopno prek: http://www.fran.si/130/sskj-slovar-slovenskega-knjiznega-jezika (15. 4. 2016).
Slovenski pravopis, elektronska izdaja (1989 in 2001/spletna različica na potalu Fran: 2014). Ljubljana: Inštitut za slovenski jezik Frana Ramovša ZRC SAZU. Dostopno prek: http://www.fran.si/134/slovenski-pravopis (15. 4. 2016).
Slovenski pravopis (1950). Ljubljana: SAZU. Digitalizirana različica dostopna prek: http://pravopisi.trojina.si/ebooks/pravopis1950/pravopis1950.html (15. 4. 2016).
Slovenski pravopis (1962). Ljubljana: SAZU. Digitalizirana različica dostopna prek: http://pravopisi.trojina.si/ebooks/pravopis1962/pravopis1962.html (15. 4. 2016).
Stabej, M., Dobrovoljc, H., Krek, S., Gantar, P., Popič, D., Arhar Holdt, Š., Fišer, D. in Robnik Šikonja, M. (2016): Slovenščina Janes: Pogovorna, nestandardna, spletna ali spretna? Slovenščina 2.0, 4 (2): 101–127.
Škrjanec, I., Popič, D in Fišer, D. (2015): Arheologija začetnice pri stvarnih lastnih imenih. V D. Fišer (ur.): Zbornik konference Slovenščina na spletu in v novih medijih: 80–86. Ljubljana: Znanstvena založba Filozofske fakultete.
Toporišič, J. (1971): Pravopis, pravorečje in oblikoslovje v SSKJ I. Slavistična revija, 19 (1): 55–75.
Toporišič, J. (1974): Besednovrstna vprašanja slovenskega knjižnega jezika. Jezik in slovstvo, 20 (2–3): 33–39.
Toporišič, J. (1988): Jezikoslovje s Simpozija Obdobja 8. Slavistična revija, 36 (4): 437–49.
Vidovič Muha, A. (2011): Slovensko skladenjsko besedotvorje [druga, razširjena izdaja]. Ljubljana: Znanstvena založba Filozofske fakultete.
Prenosi
Objavljeno
27. 09. 2016
Številka
Rubrika
Razprave
Licenca
Avtorske pravice (c) 2016 Špela Arhar Holdt, Kaja Dobrovoljc

To delo je licencirano pod Creative Commons Priznanje avtorstva-Deljenje pod enakimi pogoji 4.0 mednarodno licenco.
Kako citirati
Arhar Holdt, Špela, & Dobrovoljc, K. (2016). Vrednost korpusa Janes za slovensko normativistiko. Slovenščina 2.0: Empirične, Aplikativne in Interdisciplinarne Raziskave, 4(2), 1-37. https://doi.org/10.4312/slo2.0.2016.2.1-37