Gigafida in slWaC: tematska primerjava

Avtorji

  • Nataša Logar Berginc Univerza v Ljubljani, Fakulteta za družbene vede
  • Nikola Ljubešić Univerza v Zagrebu, Fakulteta za humanistiko in družbene vede

DOI:

https://doi.org/10.4312/slo2.0.2013.1.78-110

Ključne besede:

slovenščina, referenčni korpus, spletni korpus, tematsko modeliranje

Povzetek

V prispevku analiziramo dvoje: (a) vključevanje besedil z interneta v obstoječe referenčne korpuse, ki ga soočamo z obstojem spletnih korpusov, ter (b) dva najnovejša korpusa slovenščine: korpus Gigafida, ki ga pretežno sestavljajo tiskana besedila, v manjši meri pa tudi spletna, in korpus slWaC, ki je v celoti sestavljen iz spletnih besedil. Najprej ugotavljamo podobnosti in razlike med njima z metodo tematskega modeliranja, nato pa isto metodo apliciramo še na posamezne taksonomske kategorije Gigafide. Prvi del analize je pokazal, da je ravnanje sestavljalcev referenčnih korpusov v zvezi z vključevanjem internetnih besedil v korpuse, ki naj bi kazali celovito podobo nekega jezika, trenutno še neenotno, če pa se zanj že odločijo, je nabor vključenih žanrov praviloma širok. Drugi del analize je pokazal dokajšnjo tematsko različnost Gigafide in slWaCa ter izpostavil najznačilnejše teme, ki jih pokriva vsak od šestih Gigafidinih delov.

Prenosi

Podatki o prenosih še niso na voljo.

Literatura

Logar Berginc, N., Ljubešić, N. (2013): Gigafida in slWaC: tematska primerjava. Slovenščina 2.0, 1 (1): 78–110.

Prenosi

Objavljeno

1. 12. 2013

Številka

Rubrika

Razprave

Kako citirati

Logar Berginc, N., & Ljubešić, N. (2013). Gigafida in slWaC: tematska primerjava. Slovenščina 2.0: Empirične, Aplikativne in Interdisciplinarne Raziskave, 1(1), 78-110. https://doi.org/10.4312/slo2.0.2013.1.78-110

Najbolj brani prispevki istega avtorja(jev)