Gigafida in slWaC: tematska primerjava
DOI:
https://doi.org/10.4312/slo2.0.2013.1.78-110Ključne besede:
slovenščina, referenčni korpus, spletni korpus, tematsko modeliranjePovzetek
V prispevku analiziramo dvoje: (a) vključevanje besedil z interneta v obstoječe referenčne korpuse, ki ga soočamo z obstojem spletnih korpusov, ter (b) dva najnovejša korpusa slovenščine: korpus Gigafida, ki ga pretežno sestavljajo tiskana besedila, v manjši meri pa tudi spletna, in korpus slWaC, ki je v celoti sestavljen iz spletnih besedil. Najprej ugotavljamo podobnosti in razlike med njima z metodo tematskega modeliranja, nato pa isto metodo apliciramo še na posamezne taksonomske kategorije Gigafide. Prvi del analize je pokazal, da je ravnanje sestavljalcev referenčnih korpusov v zvezi z vključevanjem internetnih besedil v korpuse, ki naj bi kazali celovito podobo nekega jezika, trenutno še neenotno, če pa se zanj že odločijo, je nabor vključenih žanrov praviloma širok. Drugi del analize je pokazal dokajšnjo tematsko različnost Gigafide in slWaCa ter izpostavil najznačilnejše teme, ki jih pokriva vsak od šestih Gigafidinih delov.Prenosi
Podatki o prenosih še niso na voljo.
Literatura
Logar Berginc, N., Ljubešić, N. (2013): Gigafida in slWaC: tematska primerjava. Slovenščina 2.0, 1 (1): 78–110.
Prenosi
Objavljeno
1. 12. 2013
Številka
Rubrika
Razprave
Licenca
Avtorske pravice (c) 2013 Nataša Logar Berginc, Nikola Ljubešić
To delo je licencirano pod Creative Commons Priznanje avtorstva-Deljenje pod enakimi pogoji 4.0 mednarodno licenco.
Kako citirati
Logar Berginc, N., & Ljubešić, N. (2013). Gigafida in slWaC: tematska primerjava. Slovenščina 2.0: Empirične, Aplikativne in Interdisciplinarne Raziskave, 1(1), 78-110. https://doi.org/10.4312/slo2.0.2013.1.78-110