Imenske entitete v modernističnih besedilih

Ročno označevanje in analiza korpusa Maj68

Avtorji

DOI:

https://doi.org/10.4312/slo2.0.2023.1.118-137

Ključne besede:

modernizem, imenske entitete, korpusna stilistika, slovenska literatura, Tribuna, Problemi, 1968

Povzetek

V članku najprej predstavimo korpus Maj68, tj. korpus modernističnih literarnih besedil slovenskih avtorjev iz revij Tribuna in Problemi iz obdobja študentskega gibanja 1968. Korpus je bil avtomatsko oblikoskladenjsko označen, nato je sledila ročna semantična anotacija z namenom naprednejše analize korpusa. Cilj raziskave je bil, da v označeno gradivo zajamemo kompleksnejše semantične pojave in tem prilagodimo označevalni model, ki bi uspešno naslovil dileme označevanja literarnih besedil, in sicer dvoumnost, nejasnost in variantnost. Trinivojska označevalna shema ima tri osnovne kategorije, od katerih se prvi dve delita še nadalje: 1. lastna imena, 2. tuji jeziki in slovenske jezikovne varietete ter 3. bibliografske navedbe. Predstavljene so izbrane vsebinske analize imenskih entitet (imena likov in geografska imena) glede na tri temeljne literarne zvrsti. Rezultati analiz pokažejo določene razlike med zvrstmi, ki jih je mogoče interpretativno postaviti v širši literarni kontekst. V sklepih razmišljamo o možnostih izboljšave sheme, njene dodatne nadgradnje ter o potencialni nadgradnji rezultatov.

Prenosi

Podatki o prenosih še niso na voljo.

Literatura

Beck, C. Booth, H., El-Assady, M., & Butt, M. (2020). Representation Problems in Linguistic Annotations: Ambiguity, Variation, Uncertainty, Error and Bias. In The 14th Linguistic Annotation Workshop (pp. 60–73). Barcelona, Spain: Association for Computational Linguistics. Retrieved from https://aclanthology.org/2020.law-1.6.pdf

de Does, J., Depuydt, K., van Dalen-Oskam, K., & Marx, M. (2017). Namescape: Named Entity Recognition from a Literary Perspective. In J. Odijk & A. van Hessen (Eds.), CLARIN in the Low Countries (pp. 361–370). Ubiquity Press. Retrieved from http://www.jstor.org/stable/j.ctv3t5qjk.37 DOI: https://doi.org/10.5334/bbi.30

Eckart de Castilho, R., Mújdricza-Maydt, E., Muhie Yimam, S., Hartmann, S., Gurevych, I., Frank, A., & Biemann, C. (2016). A web-based tool for the integrated annotation of semantic and syntactic structures. In Proceedings of the Workshop on Language Technology Resources and Tools for Digital Humanities (LT4DH) (pp. 76–84). Osaka, Japan: The COLING 2016 Organizing Committee. Retrieved from https://aclanthology.org/W16-4011.pdf

Gregory, I., Donaldson, C., Murrieta-Flores, P., & Rayson, P. (2015). Geoparsing, GIS, and Textual Analysis: Current Developments in Spatial Humanities Research. International Journal of Humanities and Arts Computing, 9(1), 1–14. doi:10.3366/ijhac.2015.0135 DOI: https://doi.org/10.3366/ijhac.2015.0135

Grisot, G., Herrmann, B. (2022). Emotions and space: an investigation of “urban” vs. “rural” emotional language in Swiss-German fiction around 1900. Distant reading closing conference. Accessed at https://www.distant-reading.net/events/conference-programme/

Hladnik, M. (2012). Prostor v slovenskih literarnovednih študijah: kritične izdaje klasikov. In U. Perenič (Ed.), Prostor v literaturi in literatura v prostoru = Space in literature and literature in space (pp. 271–282). Ljubljana: Slavistično društvo Slovenije. Retrieved from http://www.dlib.si/details/URN:NBN:SI:DOC-EFDJCFIF

Juvan, M., Šorli, M., & Žejn, A. (2021). Interpretiranje literature v zmanjšanem merilu: »Oddaljeno branje« korpusa »dolgega leta 1968«. Jezik in slovstvo, 66(4), 55–76.

Juvan, M., Žejn, A., Šorli, M., Mandić, L., Tomažin, A., Jež, A., Balžalorsky Antić, v., & Erjavec, T. (2022). Corpus of 1968 Slovenian literature Maj68 2.0, ZRC SAZU, http://hdl.handle.net/11356/1430

Ketschik, N., Blessing, A., Murr, S., Overbeck, M., & Pichler, A. (2020). Interdisziplinäre Annotation von Entitätenreferenzen. Von fachspezifischen Fragestellungen zur einheitlichen methodischen Umsetzung. In N. Reiter, A. Pichler & J. Kuhn (Eds.), Reflektierte Algorithmische Textanalyse. Interdisziplinäre(s) Arbeiten in der CRETA-Werkstatt (pp. 203–236). Berlin, Boston: De Gruyter. Retrived from https://doi.org/10.1515/9783110693973-010 DOI: https://doi.org/10.1515/9783110693973-010

Pagel, J., Reiter, N., Rösiger, I., & Schulz, S. (2020). Annotation als flexibel einsetzbare Methode. In N. Reiter, A. Pichler & J. Kuhn (Eds.), Reflektierte Algorithmische Textanalyse. Interdisziplinäre(s) Arbeiten in der CRETA-Werkstatt (pp. 125–142). Berlin – Boston: De Gruyter. doi: 10.1515/9783110693973-010 DOI: https://doi.org/10.1515/9783110693973-006

Papay, S., & Padó, S. (2020). RiQuA: A Corpus of Rich Quotation Annotation for English Literary Text. In Proceedings of the 12th Language Resources and Evaluation Conference (pp. 835–841). Marseille, France: European Language Resources Association. Retrieved from https://aclanthology.org/2020.lrec-1.104.pdf (1. 12. 2022)

Perenič, U. (2012a). Space in literature and literature in space. In U. Perenič (Ed.), Space in literature and literature in space (pp. 265–270). Ljubljana: Slavistično društvo Slovenije. Retrieved from: http://www.dlib.si/details/URN:NBN:SI:DOC-6P13WHOU

Perenič, U. (Ed.) (2012b). Space in literature and literature in space. Ljubljana: Slavistično društvo Slovenije. Retrieved from http://www.dlib.si/details/URN:NBN:SI:DOC-6P13WHOU

Stanković, R., Santos, D., Frontini, F., Erjavec, T., & Brando, C. (2019). Named Entity Recognition for Distant Reading in Several Languages. In G. Pálko (Ed.), DH_Budapest_2019. Budapest: ELTE. Retrieved from http://elte-dh.hu/dh_budapest_2019-abstract-booklet/

Ševščíková, M., Žabokrtský, Z., & Krůza, O. (2007). Named Entities in Czech: Annotating Data and Developing NE Tagger. In V. Matoušek & P. Mautner (Eds.), Text, Speech and Dialogue: Proceedings of the 10th International Conference, TSD 2007, Pilsen, Czech Republic, September 3–7, 2007. Berlin – Heidelberg: Springer-Verlag. Retrieved from https://ufal.mff.cuni.cz/~zabokrtsky/publications/papers/tsd07-namedent.pdf DOI: https://doi.org/10.1007/978-3-540-74628-7_26

Šorli, M., & Žejn, A. (2022). Annotation of Named Entities in the May68 Corpus: NEs in modernist literary texts. In D. Fišer & T. Erjavec (Eds.), Proceedings of the Conference on Language Technologies and Digital Humanities 2022 (pp. 187–195) Ljubljana: Institute of Contemporary History. Retrieved from: https://www.sdjt.si/wp/dogodki/konference/jtdh-2022/zbornik/

Vala, H., Jurgens, D., Piper, A., & Ruths, D. (2015). Mr. Bennet, his coachman, and the Archbishop walk into a bar but only one of them gets recognized: On The Difficulty of Detecting Characters in Literary Texts. In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing (pp. 769–774). Lisbon, Portugal: Association for Computational Linguistics. DOI: https://doi.org/10.18653/v1/D15-1088

Viehhauser, G. (2020). Zur Erkennung von Raum in narrativen Texten: Spatial frames und Raumsemantik als Modelle für eine digitale Narratologie des Raums. In N. Reiter, A. Pichler & J. Kuhn (Eds.), Reflektierte algorithmische Textanalyse: Interdisziplinäre(s) Arbeiten in der CRETA-Werkstatt (pp. 373–388). Berlin – Boston: De Gruyter. Retrieved from https://doi.org/10.1515/9783110693973-015 DOI: https://doi.org/10.1515/9783110693973-015

Won, M., Murrieta-Flores, P., & Martins B. (2018). Ensemble Named Entity Recognition (NER): Evaluating NER Tools in the Identification of Place Names in Historical Corpora. Frontiers in Digital Humanities 5. Retrieved from https://www.frontiersin.org/articles/10.3389/fdigh.2018.00002 DOI: https://doi.org/10.3389/fdigh.2018.00002

Zupan, K., Ljubešić, N., & Erjavec, T. (2017). Annotation guidelines for Slovenian named entities: Janes-NER. Technical report, Jožef Stefan Institute, September. Retrieved from https://www.clarin.si/repository/xmlui/bitstream/handle/11356/1123/SlovenianNER-eng-v1.1.pdf

Objavljeno

12. 09. 2023

Številka

Rubrika

Članki – Sklop 1: Korpusnojezikoslovne raziskave

Kako citirati

Žejn, A., & Šorli, M. (2023). Imenske entitete v modernističnih besedilih: Ročno označevanje in analiza korpusa Maj68. Slovenščina 2.0: Empirične, Aplikativne in Interdisciplinarne Raziskave, 11(1), 118-137. https://doi.org/10.4312/slo2.0.2023.1.118-137