Luščenje definicijskih kandidatov iz specializiranih korpusov

Avtorji

  • Senja Pollak Institut “Jožef Stefan”, Odsek za tehnologije znanja

DOI:

https://doi.org/10.4312/slo2.0.2014.1.1-40

Ključne besede:

luščenje definicij, spletni delotoki, jezikovne tehnologije, procesiranje naravnega jezika, luščenje znanja iz korpusov, avtomatizacija terminografskih postopkov

Povzetek

Predstavljamo metodo za luščenje definicij iz specializiranih korpusov. Metoda je bila razvita za slovenščino in angleščino, sestavljajo pa jo trije pristopi: v prvem definicije luščimo z leksikoskladenjskimi vzorci, drugi uporablja avtomatsko izluščeno terminologijo, tretji pa lušči stavke, v katerih se nahajata pojem in njegova nadpomenka iz semantičnega leksikona wordnet. Metodologijo smo preizkusili na primeru področja jezikovnih tehnologij. Za namene modeliranja izbranega področja smo zgradili primerljivi slovensko-angleški Korpus jezikovnih tehnologij, izluščene kandidate pa smo uporabili pri gradnji Glosarja jezikovnih tehnologij. Celotno metodologijo smo strnili v prosto dostopen delotok, implementiran v spletnem okolju za gradnjo delotokov Clowdflows. V delotok lahko uporabnik prek spleta naloži korpus v različnih formatih, ga jezikoslovno označi, izlušči terminologijo in kandidate za definicije ter rezultate vizualizira ali shrani.

Prenosi

Podatki o prenosih še niso na voljo.

Literatura

Pollak, S. (2014): Luščenje definicijskih kandidatov iz specializiranih korpusov. Slovenščina 2.0, 1 (2): 1–40.

Prenosi

Objavljeno

1. 12. 2014

Številka

Rubrika

Razprave

Kako citirati

Pollak, S. (2014). Luščenje definicijskih kandidatov iz specializiranih korpusov. Slovenščina 2.0: Empirične, Aplikativne in Interdisciplinarne Raziskave, 2(1), 1-40. https://doi.org/10.4312/slo2.0.2014.1.1-40