Korpusne oznake za opis konteksta govornih dogodkov v slovenskih govornih korpusih

Avtorji

  • Andreja Bizjak Univerza v Mariboru, Fakulteta za elektrotehniko, računalništvo in informatiko

DOI:

https://doi.org/10.4312/slo2.0.2024.1.54-94

Ključne besede:

govorni korpusi, zasnova korpusa, govorni dogodki, kategorizacija oznak

Povzetek

Zaradi časovno in finančno zahtevne priprave govornega korpusa je ob zasnovi potreben temeljit razmislek o njegovi sestavi in kategorizaciji beleženih metapodatkov. Raznoliki govorni dogodki, vključeni v nacionalni referenčni korpus, naj bi v čim večji meri odražali raznolikost sodobnega govorjenega jezika. Zanimalo nas bo, na kakšen način kategorizirati oznake za opis konteksta govornih dogodkov, da bi to reprezentativnost dosegli, ne da bi se popolnoma odrekli medsebojni primerljivosti podatkov. Premišljena zasnova nam omogoča, da je ob kasnejših korpusnih nadgradnjah potrebnih čim manj časovno zamudnih prilagoditev oznak. Izvedli bomo primerjalno analizo domačih in tujih govornih korpusov, s katero bomo kritično ovrednotili štiri temeljne kategorije oznak za opis konteksta govorne situacije. Pregledali bomo zasnovo tujih referenčnih govornih korpusov FOLK, BNC2014, ORAL2013, Nizozemskega govornega korpusa in C-ORAL-ROM ter jih primerjali z aktualnim referenčnim korpusom govorjene slovenščine Gos 2.1. Problematizirali bomo izbrane oznake in izpostavili težavnejša mesta, ki bi zahtevala dodatne premisleke in potencialno prekategorizacijo v prihodnje.

Prenosi

Podatki o prenosih še niso na voljo.

Literatura

Abercrombie, G., & Batista-Navarro, R. (2020). Sentiment and position-taking analysis of parliamentary debates: a systematic literature review. Journal of Computational Social Science, 3(1), 245–270.

Burnard, L. (2000). The British national corpus users reference guide. In: Oxford University Computing Services Oxford.

Cermák, F. (2009). Spoken Corpora Design: Their Constitutive Parameters. International Journal of Corpus Linguistics, 14, 113–123. Pridobljeno s https://www.jbe-platform.com/content/journals/10.1075/ijcl.14.1.07cer

Chizhik, A. V., & Sergeyev, D. A. (2021). Exploring the Parliamentary Discourse of the Russian Federation Using Topic Modeling Approach. International Conference on Digital Transformation and Global Society.

Cresti, E., & Moneglia, M. (2005). C-ORAL-ROM: Integrated Reference Corpora for Spoken Romance Languages. John Benjamins Publishing Company. Pridobljeno s https://books.google.si/books?id=ybc5AAAAQBAJ

Cresti, E., Nascimento, F. B. d., Moreno-Sandoval, A., Véronis, J., Martin, P., & Choukri, K. (2004). The C-ORAL-ROM CORPUS. A Multilingual Resource of Spontaneous Speech for Romance Languages. International Conference on Language Resources and Evaluation.

Deppermann, A., & Hartung, M. (2012). Was gehört in ein nationales Gesprächskorpus? : Kriterien, Probleme und Prioritäten der Stratifikation des “Forschungs- und Lehrkorpus Gesprochenes Deutsch” (FOLK) am Institut für Deutsche Sprache (Mannheim).

Gorjanc, V. (2005). Uvod v korpusno jezikoslovje. Izolit.

Gorjanc, V., & Fišer, D. (2013). Korpusna analiza (2. izd. ed.). Znanstvena založba Filozofske fakultete.

Gorjanc, V., & Krek, S. (Ur.). (2005). Študije o korpusnem jezikoslovju: zbornik (1. izd. ed., Vol. 130). Krtina.

Gorjanc, V., & Logar, N. (2007). Od splošnih do specializiranih korpusov-načela gradnje glede na njihov namen. Razvoj slovenskega strokovnega jezika, 637–650. Pridobljeno s https://doi.org/https://repozitorij.uni-lj.si/Dokument.php?id=182750&lang=slv

Hymes, D. H. (1974). Foundations in Sociolinguistics: An Ethnographic Approach.

Kaiser, J. (2018). Zur Stratifikation des FOLK-Korpus: Konzeption und Strategien. Gesprächsforschung, 19, 515–552. Pridobljeno s https://ids-pub.bsz-bw.de/frontdoor/deliver/index/docId/8668/file/Kaiser_Zur_Stratifikation_des_FOLK-Korpus_2018.pdf

Kopřivová, M., Komrsková, Z., Poukarová, P., & Lukeš, D. (2019). Relevant Criteria for Selection of Spoken Data: Theory Meets Practice. Journal of Linguistics/Jazykovedný casopis, 70(2), 324–335. doi: 10.2478/jazcas-2019-0062

Kuzman, T., Mozetič, I., & Ljubešić, N. (2023). Automatic Genre Identification for Robust Enrichment of Massive Text Collections: Investigation of Classification Methods in the Era of Large Language Models. Machine Learning and Knowledge Extraction, 5(3), 1149-1175. Pridobljeno s https://www.mdpi.com/2504-4990/5/3/59

Love, R., Dembry, C., Hardie, A., Brezina, V., & McEnery, T. (2017). The Spoken BNC2014: Designing and building a spoken corpus of everyday conversations. International Journal of Corpus Linguistics, 22, 319–344. Pridobljeno s https://www.jbe-platform.com/content/journals/10.1075/ijcl.22.3.02lov?crawler=true

Love, R., Hawtin, A., & Hardie, A. (2018). The British National Corpus 2014: User Manual and Reference Guide (version 1.1). ESRC Centre for Corpus Approaches to Social Science.

Lucie, B., Michal, K., & Martina, W. (2015). Korpus spontánní mluvené češtiny ORAL2013.

Oostdijk, N. (2000). The Spoken Dutch Corpus. Overview and First Evaluation. International Conference on Language Resources and Evaluation,

Petukhova, V., Malchanau, A., & Bunt, H. (2015). Modelling argumentation in parliamentary debates. Proceedings of the 15th Workshop on Computational Models of Natural Argument, Principles and Practice of Multi-Agent Systmes Conference (PRIMA 2015), Bertinoro, Italy,

Pretnar Žagar, A., Pahor de Maiti, K., & Fišer, D. (2022). What’s on the agenda?: topic modelling parliamentary debates before and during the COVID-19 pandemic = Kaj je na dnevnem redu?. Pridobljeno s https://sidih.github.io/agenda/index-sl.html

Rheault, L., Beelen, K., Cochrane, C., & Hirst, G. (2016). Measuring emotion in parliamentary debates with automated textual analysis. PloS one, 11(12), e0168843.

Schmidt, T. C. (2014). The Research and Teaching Corpus of Spoken German — FOLK. International Conference on Language Resources and Evaluation,

Verdonik, D. (2013). Koncept konteksta v jezikoslovnih in diskurznih teorijah. Slavistična revija, 61(4), 631–650. Pridobljeno s https://srl.si/sql_pdf/SRL_2013_4_08.pdf

Verdonik, D. (2018). Korpus in baza Gos Videolectures.

Verdonik, D. (2021). Govorni viri za pravorečje. 1. slovenski pravorečni posvet. Pridobljeno s https://www.sazu.si/uploads/files/publikacije21/Rared2RAZPRAVE.pdf

Verdonik, D., Bizjak, A., Žgank, A., Bernjak, M., Antloga, Š., Majhenič, S., Čakš, P., …., & Bordon, D. (2023). ASR database ARTUR 1.0 (audio). Faculty of Electrical Engineering and Computer Science, University. Pridobljeno s https://www.clarin.si/repository/xmlui/handle/11356/1776

Verdonik, D., Bizjak, A., Žgank, A., & Dobrišek, S. (2022). Metapodatki o posnetkih in govorcih v govornih virih: primer baze Artur. Pridobljeno s https://nl.ijs.si/jtdh22/pdf/JTDH2022_Verdonik-et-al_Metapodatki-o-posnetkih-in-govorcih-v-govornih-virih-primer-baze-Artur.pdf

Verdonik, D., Kosem, I., Vitez, A. Z., Krek, S., & Stabej, M. (2013). Compilation, transcription and usage of a reference speech corpus: the case of the Slovene corpus GOS. Language Resources and Evaluation, 47, 1031–1048. Pridobljeno s https://link.springer.com/content/pdf/10.1007/s10579-013-9216-5.pdf

Vintar, Š. (Ur.). (2010). Slovenske korpusne raziskave (1. natis ed.). Znanstvena založba Filozofske fakultete.

Zemljarič Miklavčič, J. (2008). Govorni korpusi (1. natis ed.). Znanstvena založba Filozofske fakultete, Oddelek za prevajalstvo.

Zemljarič Miklavčič, J., Stabej, M., Krek, S., & Zwitter Vitez, A. (2015). Kaj in zakaj v referenčni govorni korpus slovenščine. Pridobljeno s http://www.korpus-gos.net/Content/Static/Kaj_in_zakaj_v_referencni_govorni_korpus_slovenscine.pdf

Prenosi

Objavljeno

30. 08. 2024

Številka

Rubrika

Razprave

Kako citirati

Bizjak, A. (2024). Korpusne oznake za opis konteksta govornih dogodkov v slovenskih govornih korpusih. Slovenščina 2.0: Empirične, Aplikativne in Interdisciplinarne Raziskave, 12(1), 54-94. https://doi.org/10.4312/slo2.0.2024.1.54-94