Korpusne oznake za opis konteksta govornih dogodkov v slovenskih govornih korpusih
DOI:
https://doi.org/10.4312/slo2.0.2024.1.54-94Ključne besede:
govorni korpusi, zasnova korpusa, govorni dogodki, kategorizacija oznakPovzetek
Zaradi časovno in finančno zahtevne priprave govornega korpusa je ob zasnovi potreben temeljit razmislek o njegovi sestavi in kategorizaciji beleženih metapodatkov. Raznoliki govorni dogodki, vključeni v nacionalni referenčni korpus, naj bi v čim večji meri odražali raznolikost sodobnega govorjenega jezika. Zanimalo nas bo, na kakšen način kategorizirati oznake za opis konteksta govornih dogodkov, da bi to reprezentativnost dosegli, ne da bi se popolnoma odrekli medsebojni primerljivosti podatkov. Premišljena zasnova nam omogoča, da je ob kasnejših korpusnih nadgradnjah potrebnih čim manj časovno zamudnih prilagoditev oznak. Izvedli bomo primerjalno analizo domačih in tujih govornih korpusov, s katero bomo kritično ovrednotili štiri temeljne kategorije oznak za opis konteksta govorne situacije. Pregledali bomo zasnovo tujih referenčnih govornih korpusov FOLK, BNC2014, ORAL2013, Nizozemskega govornega korpusa in C-ORAL-ROM ter jih primerjali z aktualnim referenčnim korpusom govorjene slovenščine Gos 2.1. Problematizirali bomo izbrane oznake in izpostavili težavnejša mesta, ki bi zahtevala dodatne premisleke in potencialno prekategorizacijo v prihodnje.
Prenosi
Literatura
Abercrombie, G., & Batista-Navarro, R. (2020). Sentiment and position-taking analysis of parliamentary debates: a systematic literature review. Journal of Computational Social Science, 3(1), 245–270.
Burnard, L. (2000). The British national corpus users reference guide. In: Oxford University Computing Services Oxford.
Cermák, F. (2009). Spoken Corpora Design: Their Constitutive Parameters. International Journal of Corpus Linguistics, 14, 113–123. Pridobljeno s https://www.jbe-platform.com/content/journals/10.1075/ijcl.14.1.07cer
Chizhik, A. V., & Sergeyev, D. A. (2021). Exploring the Parliamentary Discourse of the Russian Federation Using Topic Modeling Approach. International Conference on Digital Transformation and Global Society.
Cresti, E., & Moneglia, M. (2005). C-ORAL-ROM: Integrated Reference Corpora for Spoken Romance Languages. John Benjamins Publishing Company. Pridobljeno s https://books.google.si/books?id=ybc5AAAAQBAJ
Cresti, E., Nascimento, F. B. d., Moreno-Sandoval, A., Véronis, J., Martin, P., & Choukri, K. (2004). The C-ORAL-ROM CORPUS. A Multilingual Resource of Spontaneous Speech for Romance Languages. International Conference on Language Resources and Evaluation.
Deppermann, A., & Hartung, M. (2012). Was gehört in ein nationales Gesprächskorpus? : Kriterien, Probleme und Prioritäten der Stratifikation des “Forschungs- und Lehrkorpus Gesprochenes Deutsch” (FOLK) am Institut für Deutsche Sprache (Mannheim).
Gorjanc, V. (2005). Uvod v korpusno jezikoslovje. Izolit.
Gorjanc, V., & Fišer, D. (2013). Korpusna analiza (2. izd. ed.). Znanstvena založba Filozofske fakultete.
Gorjanc, V., & Krek, S. (Ur.). (2005). Študije o korpusnem jezikoslovju: zbornik (1. izd. ed., Vol. 130). Krtina.
Gorjanc, V., & Logar, N. (2007). Od splošnih do specializiranih korpusov-načela gradnje glede na njihov namen. Razvoj slovenskega strokovnega jezika, 637–650. Pridobljeno s https://doi.org/https://repozitorij.uni-lj.si/Dokument.php?id=182750&lang=slv
Hymes, D. H. (1974). Foundations in Sociolinguistics: An Ethnographic Approach.
Kaiser, J. (2018). Zur Stratifikation des FOLK-Korpus: Konzeption und Strategien. Gesprächsforschung, 19, 515–552. Pridobljeno s https://ids-pub.bsz-bw.de/frontdoor/deliver/index/docId/8668/file/Kaiser_Zur_Stratifikation_des_FOLK-Korpus_2018.pdf
Kopřivová, M., Komrsková, Z., Poukarová, P., & Lukeš, D. (2019). Relevant Criteria for Selection of Spoken Data: Theory Meets Practice. Journal of Linguistics/Jazykovedný casopis, 70(2), 324–335. doi: 10.2478/jazcas-2019-0062
Kuzman, T., Mozetič, I., & Ljubešić, N. (2023). Automatic Genre Identification for Robust Enrichment of Massive Text Collections: Investigation of Classification Methods in the Era of Large Language Models. Machine Learning and Knowledge Extraction, 5(3), 1149-1175. Pridobljeno s https://www.mdpi.com/2504-4990/5/3/59
Love, R., Dembry, C., Hardie, A., Brezina, V., & McEnery, T. (2017). The Spoken BNC2014: Designing and building a spoken corpus of everyday conversations. International Journal of Corpus Linguistics, 22, 319–344. Pridobljeno s https://www.jbe-platform.com/content/journals/10.1075/ijcl.22.3.02lov?crawler=true
Love, R., Hawtin, A., & Hardie, A. (2018). The British National Corpus 2014: User Manual and Reference Guide (version 1.1). ESRC Centre for Corpus Approaches to Social Science.
Lucie, B., Michal, K., & Martina, W. (2015). Korpus spontánní mluvené češtiny ORAL2013.
Oostdijk, N. (2000). The Spoken Dutch Corpus. Overview and First Evaluation. International Conference on Language Resources and Evaluation,
Petukhova, V., Malchanau, A., & Bunt, H. (2015). Modelling argumentation in parliamentary debates. Proceedings of the 15th Workshop on Computational Models of Natural Argument, Principles and Practice of Multi-Agent Systmes Conference (PRIMA 2015), Bertinoro, Italy,
Pretnar Žagar, A., Pahor de Maiti, K., & Fišer, D. (2022). What’s on the agenda?: topic modelling parliamentary debates before and during the COVID-19 pandemic = Kaj je na dnevnem redu?. Pridobljeno s https://sidih.github.io/agenda/index-sl.html
Rheault, L., Beelen, K., Cochrane, C., & Hirst, G. (2016). Measuring emotion in parliamentary debates with automated textual analysis. PloS one, 11(12), e0168843.
Schmidt, T. C. (2014). The Research and Teaching Corpus of Spoken German — FOLK. International Conference on Language Resources and Evaluation,
Verdonik, D. (2013). Koncept konteksta v jezikoslovnih in diskurznih teorijah. Slavistična revija, 61(4), 631–650. Pridobljeno s https://srl.si/sql_pdf/SRL_2013_4_08.pdf
Verdonik, D. (2018). Korpus in baza Gos Videolectures.
Verdonik, D. (2021). Govorni viri za pravorečje. 1. slovenski pravorečni posvet. Pridobljeno s https://www.sazu.si/uploads/files/publikacije21/Rared2RAZPRAVE.pdf
Verdonik, D., Bizjak, A., Žgank, A., Bernjak, M., Antloga, Š., Majhenič, S., Čakš, P., …., & Bordon, D. (2023). ASR database ARTUR 1.0 (audio). Faculty of Electrical Engineering and Computer Science, University. Pridobljeno s https://www.clarin.si/repository/xmlui/handle/11356/1776
Verdonik, D., Bizjak, A., Žgank, A., & Dobrišek, S. (2022). Metapodatki o posnetkih in govorcih v govornih virih: primer baze Artur. Pridobljeno s https://nl.ijs.si/jtdh22/pdf/JTDH2022_Verdonik-et-al_Metapodatki-o-posnetkih-in-govorcih-v-govornih-virih-primer-baze-Artur.pdf
Verdonik, D., Kosem, I., Vitez, A. Z., Krek, S., & Stabej, M. (2013). Compilation, transcription and usage of a reference speech corpus: the case of the Slovene corpus GOS. Language Resources and Evaluation, 47, 1031–1048. Pridobljeno s https://link.springer.com/content/pdf/10.1007/s10579-013-9216-5.pdf
Vintar, Š. (Ur.). (2010). Slovenske korpusne raziskave (1. natis ed.). Znanstvena založba Filozofske fakultete.
Zemljarič Miklavčič, J. (2008). Govorni korpusi (1. natis ed.). Znanstvena založba Filozofske fakultete, Oddelek za prevajalstvo.
Zemljarič Miklavčič, J., Stabej, M., Krek, S., & Zwitter Vitez, A. (2015). Kaj in zakaj v referenčni govorni korpus slovenščine. Pridobljeno s http://www.korpus-gos.net/Content/Static/Kaj_in_zakaj_v_referencni_govorni_korpus_slovenscine.pdf
Prenosi
Objavljeno
Številka
Rubrika
Licenca
Avtorske pravice (c) 2024 Andreja Bizjak
To delo je licencirano pod Creative Commons Priznanje avtorstva-Deljenje pod enakimi pogoji 4.0 mednarodno licenco.