Uporaba drevesnice SST v raziskavah govorjene slovenščine: prednosti in omejitve

Avtorji

  • Kaja Dobrovoljc Univerza v Ljubljani, Filozofska fakulteta

DOI:

https://doi.org/10.4312/jis.69.4.187-209

Ključne besede:

korpusno jezikoslovje, govorjena slovenščina, jezikoslovno označevanje, odvisnostna drevesnica

Povzetek

Kljub porastu jezikoslovnih raziskav govorjene slovenščine, ki si prizadevajo za popis številnih doslej prezrtih posebnosti govorjenega jezika v primerjavi s pisnim, metodologija tovrstnih razprav večinoma temelji na kvalitativni analizi razmeroma majhnih ter zvrstno ali demografsko omejenih vzorcev jezikovne rabe, kar omejuje ponovljivost raziskav in možnost posploševanja spoznanj na govorjeno slovenščino kot celoto. Kot eno izmed možnosti za premostitev tega problema v prispevku predstavljamo drevesnico govorjene slovenščine SST (angl. Spoken Slovenian Treebank), prostodostopni oblikoslovno in skladenjsko označeni reprezentativni vzorec referenčnega korpusa govorjene slovenščine Gos, in ponazarjamo njen metodološki potencial za nadaljnje korpusne raziskave govorjene slovenščine. Na primeru treh tipično govorjenih pojavov (samopopravljanja, diskurzni členki in dodani ujemalni pridevniški prilastki) prikažemo uporabo drevesnice SST za enostaven priklic številnih avtentičnih primerov rabe, na primeru analize pogostosti samopopravljanj glede na različne sporazumevalne okoliščine pa ponazorimo tudi njeno uporabnost za raznolike statistične analize jezikovne rabe. Poleg najpomembnejših prednosti drevesnice SST, kot so uravnoteženost, odprta dostopnost, ročna slovnična označenost in neposredna primerljivost z drugimi tovrstnimi korpusi po svetu, v sklepnem delu izpostavimo tudi nekaj omejitev, kot sta razmeroma majhna velikost ter robustna, v pisni jezik usmerjena označevalna shema.

Prenosi

Podatki o prenosih še niso na voljo.

Literatura

Viri

Brank, Janez, 2023: Q-CAT Corpus Annotation Tool 1.5. Repozitorij CLARIN.SI. http://hdl.handle.net/11356/1844. (Dostop 4. 4. 2024.)

Dobrovoljc, Kaja idr., 2024: Spletni portal CJVT Označevalnik 2.1. https://orodja.cjvt.si/oznacevalnik/slv/. (Dostop 4. 4. 2024.)

Dobrovoljc, Kaja, 2019: Slovnične analize ročno označenega korpusa ssj500k z orodjem Q-CAT. https://videolectures.net/novaSlovnicaLjubljana_dobrovoljc_slovnicne_analize/ (Dostop 4. 4. 2024.)

Krsnik, Luka, Dobrovoljc, Kaja in Robnik-Šikonja, Marko, 2023: Dependency tree extraction tool STARK 2.0. Repozitorij CLARIN.SI. http://hdl.handle.net/11356/1899. (Dostop 4. 4. 2024.)

Štravs, Miha in Dobrovoljc, Kaja, 2022: Service for querying dependency treebanks Drevesnik 1.0. Repozitorij CLARIN.SI. http://hdl.handle.net/11356/1715. (Dostop 4. 4. 2024.)

Zeman, Daniel idr., 2023: Universal Dependencies 2.12. LINDAT/CLARIAH-CZ digital library at the Institute of Formal and Applied Linguistics (ÚFAL). Faculty of Mathematics and Physics, Charles University. http://hdl.handle.net/11234/1-5150. (Dostop 4. 4. 2024.)

Zwitter Vitez, Ana idr., 2013: Spoken corpus Gos 1.0. Repozitorij CLARIN.SI. http://hdl.handle.net/11356/1040. (Dostop 4. 4. 2024.)

Literatura

Adolphs, Svenja in Carter, Ronald, 2013: Spoken corpus linguistics: From monomodal to multimodal. Oxon: Routledge.

Arhar Holdt, Špela, Terčon, Luka, Krek, Simon, Ledinek, Nina, Može, Sara, Saksida, Amanda in Holz, Nanika, 2023: Navodila za skladenjsko označevanje slovenščine po sistemu JOS-SYN. Različica 2.0. https://wiki.cjvt.si/books/06-odvisnostna-skladnja-jos-syn/page/oznacevalne-smernice. (Dostop 4. 4. 2024.)

Carter, Ronald in McCarthy, Michael, 2017: Spoken grammar: Where are we and where are we going? Applied linguistics 38/1. 1–20. DOI: https://doi.org/10.1093/applin/amu080.

de Marneffe, Marie-Catherine, Manning, Christopher D., Nivre, Joakim in Zeman, Daniel, 2021: Universal Dependencies. Computational Linguistics 47/2. 255–308. DOI: https://doi.org/10.1162/coli_a_00402.

Dobrovoljc, Kaja in Nivre, Joakim, 2016: The Universal Dependencies Treebank of Spoken Slovenian. Calzolari, Nicoletta, Choukri, Khalid, Declerck, Thierry, Goggi, Sara, Grobelnik, Marko, Bente, Maegaard, Mariani, Joseph, Mazo, Helene, Moreno, Asuncion, Odijk, Jan in Piperidis, Stelios (ur.): Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016). Portorož: European Language Resources Association. 1566–1573. https://aclanthology.org/L16-1248. (Dostop 4. 4. 2024.)

Dobrovoljc, Kaja in Terčon, Luka, 2023: Universal Dependencies: Smernice za označevanje besedil v slovenščini. Različica 1.3. Ljubljana: Center za jezikovne vire in tehnologije Univerze v Ljubljani. https://wiki.cjvt.si/books/07-universal-dependencies/page/oznacevalne-smernice. (Dostop 4. 4. 2024.)

Dobrovoljc, Kaja, 2018a: Formulaičnost v slovenskem jeziku. Slovenščina 2.0 6/2. 67–95. DOI: https://doi.org/10.4312/slo2.0.2018.2.67-95.

Dobrovoljc, Kaja, 2018b: Leksikalne prvine govorjenega jezika v uporabniških spletnih vsebinah: primer večbesednih diskurznih označevalcev. Doktorska disertacija. Ljubljana: Filozofska fakulteta, Univerza v Ljubljani. https://repozitorij.uni-lj.si/IzpisGradiva.php?id=106400. (Dostop 4. 4. 2024.)

Dobrovoljc, Kaja, 2022: Spoken Language Treebanks in Universal Dependencies: an Overview. Calzolari, Nicoletta, Béchet, Frédéric, Blache, Philippe, Choukri, Khalid, Cieri, Christopher, Declerck, Thierry, Goggi, Sara, Isahara, Hitoshi, Maegaard, Bente, Mariani, Joseph, Mazo, Hélène, Odijk, Jan in Piperidis, Stelios (ur.): Proceedings of the Thirteenth Language Resources and Evaluation Conference. Marseille: European Language Resources Association. 1798–1806. https://aclanthology.org/2022.lrec-1.191. (Dostop 4. 4. 2024.)

Dobrovoljc, Kaja, 2024a: Skladenjska drevesnica govorjene slovenščine: stanje in perspektive. Krajnc Ivič, Mira (ur.): Stanje in perspektive uporabe govornih virov v raziskavah govora. Maribor: Univerza v Mariboru, Univerzitetna založba. DOI: https://doi.org/10.18690/um.ff.4.2024.

Dobrovoljc, Kaja, 2024b: Extending the Spoken Slovenian Treebank. Arhar Holdt, Špela in Erjavec, Tomaž (ur.): Zbornik konference Jezikovne tehnologije in digitalna humanistika. Ljubljana: Inštitut za novejšo zgodovino. 116–146. https://www.sdjt.si/wp/wp-content/uploads/2024/09/JT-DH_2024_Dobrovoljc.pdf. (Dostop 5. 11. 2024.)

Dobrovoljc, Kaja, Erjavec, Tomaž in Krek, Simon, 2017: The Universal Dependencies Treebank for Slovenian. Erjavec, Tomaž, Piskorski, Jakub, Pivovarova, Lidia, Šnajder, Jan, Steinberger, Josef in Yangarber, Roman (ur.): Proceedings of the 6th Workshop on Balto-Slavic Natural Language Processing, BSNLP@EACL 2017. Valencia: Association for Computational Linguistics. 33–38. DOI: https://doi.org/10.18653/v1/W17-1406.

Dobrovoljc, Kaja, Krek, Simon in Erjavec, Tomaž, 2015: Leksikon besednih oblik Sloleks in smernice njegovega razvoja. Gorjanc, Vojko, Gantar, Polona, Kosem, Iztok in Krek, Simon (ur.): Slovar sodobne slovenščine: problemi in rešitve. Ljubljana: Znanstvena založba Filozofske fakultete. 80–105. DOI: https://doi.org/10.4312/9789612379759.

Dobrovoljc, Kaja, Terčon, Luka in Ljubešić, Nikola, 2023: Universal Dependencies za slovenščino: nove smernice, ročno označeni podatki in razčlenjevalni model. Slovenščina 2.0 11/1. 218–246. DOI: https://doi.org/10.4312/slo2.0.2023.1.218-246.

Dobrovoljc, Kaja, v pripravi: Pregled raziskav skladenjskih posebnosti govorjene slovenščine.

Džeroski, Sašo, Erjavec, Tomaž, Ledinek, Nina, Pajas, Petr, Žabokrtrtsky, Zdenek in Žele, Andreja, 2006: Towards a Slovene Dependency Treebank. Calzolari, Nicoletta, Choukri, Khalid, Gangemi, Aldo, Maegaard, Bente, Mariani, Joseph, Odijk, Jan in Tapias, Daniel (ur.): Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC 2006). Genoa: European Language Resources Association. 1388–1391. https://aclanthology.org/L06-1068/. (Dostop 4. 4. 2024.)

Erjavec, Tomaž, 2012: MULTEXT-East: morphosyntactic resources for Central and Eastern European languages. Language Resources and Evaluation 46. 131–142. DOI: https://doi.org/10.1007/s10579-011-9174-8.

Guillaume, Bruno, 2021: Graph Matching and Graph Rewriting: GREW tools for corpus exploration, maintenance and conversion. Gkatzia, Dimitra in Seddah, Djamé (ur.): Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: System Demonstrations. [Online]: Association for Computational Linguistics. 168–175. https://aclanthology.org/2021.eacl-demos.21/. (Dostop 4. 4. 2024.)

Hinrichs, Erhard in Kübler, Sandra, 2005: Treebank profiling of spoken and written German. Proceedings of the Fourth Workshop on Treebanks and Linguistic Theories. Barcelona. 65–76. http://www.sfs.uni-tuebingen.de/~kuebler/papers/GermanEstimation.pdf. (Dostop 4. 4. 2024.)

Holozan, Peter, Krek, Simon, Pivec, Matej, Rigač, Simon, Rozman, Simon, Velušček, Aleš, Pori, Eva in Arhar Holdt, Špela, 2023: Specifikacije za učni korpus: lematizacija in MSD. Različica 2.0. https://wiki.cjvt.si/books/04-oblikoskladnja-multext-east/page/oznacevalne-smernice. (Dostop 4. 4. 2024.)

Kahane, Sylvain, Caron, Bernard, Strickland, Emmett in Gerdes, Kim, 2021: Annotation guidelines of UD and SUD treebanks for spoken corpora: A proposal. Dakota, Daniel, Evang, Kilian in Kübler, Sandra (ur.): Proceedings of the 20th International Workshop on Treebanks and Linguistic Theories (TLT, Syntaxfest 2021). Sofia: Association for Computational Linguistics. 35–47. https://aclanthology.org/2021.tlt-1.4/. (Dostop 4. 4. 2024.)

Krajnc Ivič, Mira, 2004: Besedilnoskladenjske značilnosti javne govorjene besede (na gradivu mariborščine). Slavistična revija 52/4. 475–498.

Kranjc, Simona, 1999: Razvoj govora predšolskih otrok. Ljubljana: Znanstveni inštitut Filozofske fakultete.

Kranjc, Simona, 2006: Poglavja iz skladnje otroškega govora. Domžale: Izolit.

Krek, Simon, Arhar Holdt, Špela, Erjavec, Tomaž, Čibej, Jaka, Repar, Andraž, Gantar, Polona, Ljubešić, Nikola, Kosem, Iztok in Dobrovoljc, Kaja, 2020: Gigafida 2.0: The Reference Corpus of Written Standard Slovene. Calzolari, Nicoletta, Béchet, Frédéric, Blache, Philippe, Choukri, Khalid, Cieri, Christopher, Declerck, Thierry, Goggi, Sara, Isahara, Hitoshi, Maegaard, Bente, Mariani, Joseph, Mazo, Hélène, Moreno, Asuncion, Odijk, Jan in Piperidis, Stelios (ur.): Proceedings of the Twelfth Language Resources and Evaluation Conference. Marseille: European Language Resources Association. 3340–3345. https://aclanthology.org/2020.lrec-1.409. (Dostop 4. 4. 2024.)

Ledinek, Nina, 2014: Slovenska skladnja v oblikoskladenjsko in skladenjsko označenih korpusih slovenščine. Ljubljana: Založba ZRC. DOI: https://doi.org/10.3986/9789612547479.

Ledinek, Nina, 2018: Skladenjska analiza slovenščine in slovenski jezikoslovno označeni korpusi. Jezik in slovstvo 63/2–3. 103–116. DOI: https://doi.org/10.4312/jis.63.2-3.103-116.

Leech, Geoffrey, 2000: Grammars of spoken English: new outcomes of corpus-oriented research. Language Learning 50/4. 675–724. DOI: https://doi.org/10.1111/0023-8333.00143.

Luotolahti, Juhani, Kanerva, Jenna in Ginter, Filip, 2017: Dep_search: Efficient Search Tool for Large Dependency Parsebanks. Tiedemann, Jörg in Tahmasebi, Nina (ur.): Proceedings of the 21st Nordic Conference on Computational Linguistics. Gothenburg: Association for Computational Linguistics. 255–258. https://aclanthology.org/W17-0233/. (Dostop 4. 4. 2024.)

Marušič, Franc in Žaucer, Rok, 2007: O določnem ta v pogovorni slovenščini (z navezavo na določno obliko pridevnika). Slavistična revija 55/1–2. 223–247.

Melʹčuk, Igor A., 1988: Dependency Syntax: Theory and Practice. New York: State University Press of New York.

Pietrandrea, Paola in Delsart, Aline, 2019: Macrosyntax at work. Lacheret-Dujour, Anne, Kahane, Sylvain in Pietrandrea, Paola (ur.): Rhapsodie: A Prosodic and Syntactic Treebank for Spoken French. John Benjamins. 285–314. DOI: https://doi.org/10.1075/scl.89.

Roland, Douglas, Dick, Frederic in Elman, Jefferey L., 2007: Frequency of basic English grammatical structures: A corpus analysis. Journal of memory and language 57/3. 348–379. DOI: https://doi.org/10.1016/j.jml.2007.03.002.

Schlamberger Brezar, Mojca, 2007: Vloga povezovalcev v govorjenem diskurzu. Jezik in slovstvo 52/3–4. 21–32. DOI: https://doi.org/10.4312/jis.52.3-4.21-32.

Sinclair, Mch. John in Mauranen, Anna, 2006: Linear Unit Grammar: Integrating speech and writing. John Benjamins. DOI: https://doi.org/10.1075/scl.25.

Smolej, Mojca, 2004: Načini tvorjenja govorjenega diskurza – paradigmatska in sintagmatska os. Kržišnik, Erika (ur.): Aktualizacija jezikovnovrstne teorije na Slovenskem. Obdobja 22. Ljubljana: Filozofska fakulteta. 423–436. https://centerslo.si/wp-content/uploads/2015/10/22-Smolej.pdf. (Dostop 4. 4. 2024.)

Smolej, Mojca, 2022: Skladanje: izbrana poglavja iz skladnje slovenskega jezika. Ljubljana: Založba Univerze v Ljubljani. DOI: https://doi.org/10.4312/9789610606000.

Stubbs, Michael in Halbe, Dorothea, 2012: Corpus Linguistics: Overview. Chapell, A. (ur.): The Encyclopedia of Applied Linguistics. Oxford: Blackwell. DOI: https://doi.org/10.1002/9781405198431.wbeal0033.

Tesnière, Lucien, 1959: Éléments de Syntaxe Structurale. Paris: Klincksieck.

Valh Lopert, Alenka, 2006: Skladenjski elementi govorjenega jezika v jutranjem programu komercialnega radia (Radio City). Jezikoslovni zapiski 12/2. 51–62. https://www.dlib.si/details/URN:NBN:SI:DOC-QY5LTB3J. (Dostop 4. 4. 2024.)

van der Wouden, Ton, Schuurman, Ineke, Schouppe, Machteld in Hoekstra, Heleen, 2003: Harvesting Dutch Trees: Syntactic Properties of Spoken Dutch. Gaustad, Tanja (ur.): Computational Linguistics in the Netherlands 2002. Leiden: Brill. 129–141. DOI: https://doi.org/10.1163/9789004334441_011.

Van Eynde, Frank, 2009: A Treebank-driven investigation of predicative complements in Dutch. LOT Occasional Series 14. 131–145. https://dspace.library.uu.nl/bitstream/handle/1874/297144/bookpart.pdf?sequence=2&isAllowed=y. (Dostop 4. 4. 2024.)

Verdonik, Darinka in Zwitter Vitez, Ana, 2011: Slovenski govorni korpus GOS. Ljubljana: Trojina, zavod za uporabno slovenistiko. DOI: https://doi.org/10.4312/9789610603528.

Verdonik, Darinka, 2007: Jezikovni elementi spontanosti v pogovoru: diskurzni označevalci in popravljanja. Maribor: Univerzitetna založba Univerze v Mariboru.

Verdonik, Darinka, Dobrovoljc, Kaja, Erjavec, Tomaž in Ljubešić, Nikola, 2024: Gos 2: A New Reference Corpus of Spoken Slovenian. Calzolari, Nicoletta, Kan, Min-Yen, Hoste, Veronique, Lenci, Alessandro, Sakti, Sakriani in Xue, Nianwen (ur.): Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024). Torino: ELRA and ICCL. 7825–7830. https://aclanthology.org/2024.lrec-main.691/. (Dostop 5. 6. 2024.)

Verdonik, Darinka, Kosem, Iztok, Vitez Zwitter, Ana, Krek, Simon in Stabej, Marko, 2013: Compilation, transcription and usage of a reference speech corpus: The case of the Slovene corpus GOS. Language resources and evaluation 47. 1031–1048. DOI: https://doi.org/10.1007/s10579-013-9216-5.

Zemljarič Miklavčič, Jana, 2008: Govorni korpusi. Ljubljana: Znanstvena založba Filozofske fakultete. DOI: https://doi.org/10.4312/9789612379902.

Zuljan Kumar, Danila, 2007: Narečni diskurz: Diskurzivna analiza briških pogovorov. Ljubljana: Založba ZRC SAZU. DOI: https://doi.org/10.3986/9789612540050.

Zuljan Kumar, Danila, 2019: Besedni red v slovenskem narečnem diskurzu. Slovenski jezik / Slovene Linguistic Studies 12. 53–74. DOI: https://doi.org/10.3986/sjsls.12.1.04.

Zuljan Kumar, Danila, 2022: Skladnja nadiškega in briškega narečja. Ljubljana: Založba ZRC SAZU. DOI: https://doi.org/10.3986/9789610506195.

Zwitter Vitez, Ana, 2018: Enota analize spontanega govora: interakcija prozodije, pragmatike in skladnje. Jezik in slovstvo 63/2–3. 157–175. DOI: https://doi.org/10.4312/jis.63.2-3.157-175.

Prenosi

Objavljeno

17.12.2024

Številka

Rubrika

Razprave

Kako citirati

Dobrovoljc, K. (2024). Uporaba drevesnice SST v raziskavah govorjene slovenščine: prednosti in omejitve. Jezik in Slovstvo, 69(4), 187-209. https://doi.org/10.4312/jis.69.4.187-209