Imenske entitete v modernističnih besedilih
Ročno označevanje in analiza korpusa Maj68
DOI:
https://doi.org/10.4312/slo2.0.2023.1.118-137Ključne besede:
modernizem, imenske entitete, korpusna stilistika, slovenska literatura, Tribuna, Problemi, 1968Povzetek
V članku najprej predstavimo korpus Maj68, tj. korpus modernističnih literarnih besedil slovenskih avtorjev iz revij Tribuna in Problemi iz obdobja študentskega gibanja 1968. Korpus je bil avtomatsko oblikoskladenjsko označen, nato je sledila ročna semantična anotacija z namenom naprednejše analize korpusa. Cilj raziskave je bil, da v označeno gradivo zajamemo kompleksnejše semantične pojave in tem prilagodimo označevalni model, ki bi uspešno naslovil dileme označevanja literarnih besedil, in sicer dvoumnost, nejasnost in variantnost. Trinivojska označevalna shema ima tri osnovne kategorije, od katerih se prvi dve delita še nadalje: 1. lastna imena, 2. tuji jeziki in slovenske jezikovne varietete ter 3. bibliografske navedbe. Predstavljene so izbrane vsebinske analize imenskih entitet (imena likov in geografska imena) glede na tri temeljne literarne zvrsti. Rezultati analiz pokažejo določene razlike med zvrstmi, ki jih je mogoče interpretativno postaviti v širši literarni kontekst. V sklepih razmišljamo o možnostih izboljšave sheme, njene dodatne nadgradnje ter o potencialni nadgradnji rezultatov.
Prenosi
Literatura
Beck, C. Booth, H., El-Assady, M., & Butt, M. (2020). Representation Problems in Linguistic Annotations: Ambiguity, Variation, Uncertainty, Error and Bias. In The 14th Linguistic Annotation Workshop (pp. 60–73). Barcelona, Spain: Association for Computational Linguistics. Retrieved from https://aclanthology.org/2020.law-1.6.pdf
de Does, J., Depuydt, K., van Dalen-Oskam, K., & Marx, M. (2017). Namescape: Named Entity Recognition from a Literary Perspective. In J. Odijk & A. van Hessen (Eds.), CLARIN in the Low Countries (pp. 361–370). Ubiquity Press. Retrieved from http://www.jstor.org/stable/j.ctv3t5qjk.37 DOI: https://doi.org/10.5334/bbi.30
Eckart de Castilho, R., Mújdricza-Maydt, E., Muhie Yimam, S., Hartmann, S., Gurevych, I., Frank, A., & Biemann, C. (2016). A web-based tool for the integrated annotation of semantic and syntactic structures. In Proceedings of the Workshop on Language Technology Resources and Tools for Digital Humanities (LT4DH) (pp. 76–84). Osaka, Japan: The COLING 2016 Organizing Committee. Retrieved from https://aclanthology.org/W16-4011.pdf
Gregory, I., Donaldson, C., Murrieta-Flores, P., & Rayson, P. (2015). Geoparsing, GIS, and Textual Analysis: Current Developments in Spatial Humanities Research. International Journal of Humanities and Arts Computing, 9(1), 1–14. doi:10.3366/ijhac.2015.0135 DOI: https://doi.org/10.3366/ijhac.2015.0135
Grisot, G., Herrmann, B. (2022). Emotions and space: an investigation of “urban” vs. “rural” emotional language in Swiss-German fiction around 1900. Distant reading closing conference. Accessed at https://www.distant-reading.net/events/conference-programme/
Hladnik, M. (2012). Prostor v slovenskih literarnovednih študijah: kritične izdaje klasikov. In U. Perenič (Ed.), Prostor v literaturi in literatura v prostoru = Space in literature and literature in space (pp. 271–282). Ljubljana: Slavistično društvo Slovenije. Retrieved from http://www.dlib.si/details/URN:NBN:SI:DOC-EFDJCFIF
Juvan, M., Šorli, M., & Žejn, A. (2021). Interpretiranje literature v zmanjšanem merilu: »Oddaljeno branje« korpusa »dolgega leta 1968«. Jezik in slovstvo, 66(4), 55–76.
Juvan, M., Žejn, A., Šorli, M., Mandić, L., Tomažin, A., Jež, A., Balžalorsky Antić, v., & Erjavec, T. (2022). Corpus of 1968 Slovenian literature Maj68 2.0, ZRC SAZU, http://hdl.handle.net/11356/1430
Ketschik, N., Blessing, A., Murr, S., Overbeck, M., & Pichler, A. (2020). Interdisziplinäre Annotation von Entitätenreferenzen. Von fachspezifischen Fragestellungen zur einheitlichen methodischen Umsetzung. In N. Reiter, A. Pichler & J. Kuhn (Eds.), Reflektierte Algorithmische Textanalyse. Interdisziplinäre(s) Arbeiten in der CRETA-Werkstatt (pp. 203–236). Berlin, Boston: De Gruyter. Retrived from https://doi.org/10.1515/9783110693973-010 DOI: https://doi.org/10.1515/9783110693973-010
Pagel, J., Reiter, N., Rösiger, I., & Schulz, S. (2020). Annotation als flexibel einsetzbare Methode. In N. Reiter, A. Pichler & J. Kuhn (Eds.), Reflektierte Algorithmische Textanalyse. Interdisziplinäre(s) Arbeiten in der CRETA-Werkstatt (pp. 125–142). Berlin – Boston: De Gruyter. doi: 10.1515/9783110693973-010 DOI: https://doi.org/10.1515/9783110693973-006
Papay, S., & Padó, S. (2020). RiQuA: A Corpus of Rich Quotation Annotation for English Literary Text. In Proceedings of the 12th Language Resources and Evaluation Conference (pp. 835–841). Marseille, France: European Language Resources Association. Retrieved from https://aclanthology.org/2020.lrec-1.104.pdf (1. 12. 2022)
Perenič, U. (2012a). Space in literature and literature in space. In U. Perenič (Ed.), Space in literature and literature in space (pp. 265–270). Ljubljana: Slavistično društvo Slovenije. Retrieved from: http://www.dlib.si/details/URN:NBN:SI:DOC-6P13WHOU
Perenič, U. (Ed.) (2012b). Space in literature and literature in space. Ljubljana: Slavistično društvo Slovenije. Retrieved from http://www.dlib.si/details/URN:NBN:SI:DOC-6P13WHOU
Stanković, R., Santos, D., Frontini, F., Erjavec, T., & Brando, C. (2019). Named Entity Recognition for Distant Reading in Several Languages. In G. Pálko (Ed.), DH_Budapest_2019. Budapest: ELTE. Retrieved from http://elte-dh.hu/dh_budapest_2019-abstract-booklet/
Ševščíková, M., Žabokrtský, Z., & Krůza, O. (2007). Named Entities in Czech: Annotating Data and Developing NE Tagger. In V. Matoušek & P. Mautner (Eds.), Text, Speech and Dialogue: Proceedings of the 10th International Conference, TSD 2007, Pilsen, Czech Republic, September 3–7, 2007. Berlin – Heidelberg: Springer-Verlag. Retrieved from https://ufal.mff.cuni.cz/~zabokrtsky/publications/papers/tsd07-namedent.pdf DOI: https://doi.org/10.1007/978-3-540-74628-7_26
Šorli, M., & Žejn, A. (2022). Annotation of Named Entities in the May68 Corpus: NEs in modernist literary texts. In D. Fišer & T. Erjavec (Eds.), Proceedings of the Conference on Language Technologies and Digital Humanities 2022 (pp. 187–195) Ljubljana: Institute of Contemporary History. Retrieved from: https://www.sdjt.si/wp/dogodki/konference/jtdh-2022/zbornik/
Vala, H., Jurgens, D., Piper, A., & Ruths, D. (2015). Mr. Bennet, his coachman, and the Archbishop walk into a bar but only one of them gets recognized: On The Difficulty of Detecting Characters in Literary Texts. In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing (pp. 769–774). Lisbon, Portugal: Association for Computational Linguistics. DOI: https://doi.org/10.18653/v1/D15-1088
Viehhauser, G. (2020). Zur Erkennung von Raum in narrativen Texten: Spatial frames und Raumsemantik als Modelle für eine digitale Narratologie des Raums. In N. Reiter, A. Pichler & J. Kuhn (Eds.), Reflektierte algorithmische Textanalyse: Interdisziplinäre(s) Arbeiten in der CRETA-Werkstatt (pp. 373–388). Berlin – Boston: De Gruyter. Retrieved from https://doi.org/10.1515/9783110693973-015 DOI: https://doi.org/10.1515/9783110693973-015
Won, M., Murrieta-Flores, P., & Martins B. (2018). Ensemble Named Entity Recognition (NER): Evaluating NER Tools in the Identification of Place Names in Historical Corpora. Frontiers in Digital Humanities 5. Retrieved from https://www.frontiersin.org/articles/10.3389/fdigh.2018.00002 DOI: https://doi.org/10.3389/fdigh.2018.00002
Zupan, K., Ljubešić, N., & Erjavec, T. (2017). Annotation guidelines for Slovenian named entities: Janes-NER. Technical report, Jožef Stefan Institute, September. Retrieved from https://www.clarin.si/repository/xmlui/bitstream/handle/11356/1123/SlovenianNER-eng-v1.1.pdf
Prenosi
Objavljeno
Kako citirati
Številka
Rubrike
Licenca
Avtorske pravice (c) 2023 Andrejka Žejn, Mojca Šorli

To delo je licencirano pod Creative Commons Priznanje avtorstva-Deljenje pod enakimi 4.0 mednarodno licenco.
Prispevki v reviji Slovenščina 2.0 so dostopni po licenci Attribution-ShareAlike 4.0 International (CC BY-SA 4.0).
Tudi pri objavi prispevkov v reviji Slovenščina 2.0 velja licenca Attribution-ShareAlike 4.0 International (CC BY-SA 4.0). Po tej licenci avtorji obdržijo avtorske pravice, hkrati pa uporabnikom dovolijo reproduciranje, distribuiranje, dajanje v najem, javno priobčitev in predelavo avtorskega dela (tudi za komercialno uporabo in predelavo), če navedejo avtorja ter citirajo delo in ga širijo naprej pod istimi pogoji. Dovoljenje niti s strani avtorja niti s strani izdajatelja revije za vse to torej ni potrebno. Predelavo in nadgradnjo dela sme uporabnik distribuirati, dati v najem ali priobčiti javnosti le pod pogoji te iste licence, novejše različice te licence z istimi elementi, kot jih vsebuje ta licenca, ali z drugo nacionalno licenco Creative Commons, ki vsebuje iste elemente licence kot ta licenca.
Pri reviji Slovenščina 2.0 med avtorji in izdajateljem niso sklenjene nobene dodatne pogodbe ali dogovori, avtorji torej avtorske pravice in pravice nadaljnjega širjenja obdržijo brez omejitev.
Pri reviji Slovenščina 2.0 avtorjem dovoljujemo in jih spodbujamo, da svoje besedilo, ki je bilo objavljeno v reviji Slovenščina 2.0, objavijo še kje drugje na spletu (npr. v institucionalnih repozitorijih, na osebnih spletnih straneh), vendar s pripisom, v katerem je razvidno, da je naša revija besedilo objavila prva.