Uporabna vrednost podatkov spletnih zajemov: arhiviranje spletnih mest in analiza spletnih vsebin

Avtorji

  • Matjaž Kragelj Narodna in univerzitetna knjižnica, Turjaška 1, 1000 Ljubljana e-pošta: matjaz.kragelj@nuk.uni-lj.si
  • Mitja Kovačič Narodna in univerzitetna knjižnica, Turjaška 1, 1000 Ljubljana e-pošta: mitja.kovacic@nuk.uni-lj.si

DOI:

https://doi.org/10.55741/knj.61.1-2.13841

Ključne besede:

spletni arhivi, frekvenca pojavljanja, tf-idf, luščenje podatkov, spletni zajemi, domena .si

Povzetek

Izvleček
Zakon o obveznem izvodu publikacij (2006) Narodni in univerzitetni knjižnici (NUK) nalaga skrb za zajem, ohranjanje in nudenje dostopa uporabnikom do zajetih spletnih publikacij, spletnih mest in vsebin. Leta 2015 je NUK opravil prvi zajem slovenske domene .si, naslove spletnih domen je priskrbel Arnes (Akademska in raziskovalna mreža Slovenije). V prispevku se osredotočamo na pomen zajema spletnih vsebin zaradi vsakodnevnega propadanja spletnih domen. Poleg zajema in dejavnosti za zagotavljanje ohranjanja zajetih vsebin je v prispevku tematizirano tudi pridobivanje informacij iz nestrukturiranih vsebin (spletnih dokumentov). Omenjeni so primeri in delovanje aplikacij za zajemanje specifičnih informacij iz različnih spletnih dokumentov, npr. zajem cene določenega artikla v določeni trgovini z namenom obveščanja končnega uporabnika o najugodnejši ponudbi na trgu. Večji del prispevka je namenjen analizi zajetih spletnih vsebin in možnosti luščenja ter uteževanja besedišča, pridobljenega iz spletnih dokumentov. Z algoritmi in statistikami za označevanje in razvrščanje terminov v množici spletnih vsebin se spletni arhiv iz pasivne podatkovne zbirke spremeni v okolje, ki omogoča dodano vrednost povezovanja podatkov, iskanja sorodnosti znotraj podatkov spletnega arhiva in s podatki zunaj njega.

Prenosi

Podatki o prenosih še niso na voljo.

Literatura

Archive-It. (2014). San Francisco: Archive-It. Pridobljeno 11. 3. 2017 s spletne strani: https://archive-it.org

Bag of words and TF-IDF [blog zapis]. (2017). S.l.: Deeplearning4j. Pridobljeno 17. 3. 2017 s spletne strani: https://deeplearning4j.org/bagofwords-tf-idf

Brown, A. (2013). Practical digital preservation: a how-to guide for organizations of any size. London: Facet Publishing. DOI: https://doi.org/10.29085/9781856049627

Dexi.io. (2012). Copenhagen: Dexi.io. Pridobljeno 11. 3. 2017 s spletne strani: https://dexi.io

Dramowicz, K. (2016). Acquiring geographical data with web harvesting. IOP conference series: earth and environmental science, 34(1), 1–8. doi:10.1088/1755-1315/34/1/012006 DOI: https://doi.org/10.1088/1755-1315/34/1/012006

February 2016 web server survey [blog zapis]. (2017). Bath: Netcraft. Pridobljeno 10. 3. 2017 s spletne strani: https://news.netcraft.com/archives/category/web-server-survey/

GNU Wget. (2017). S.l.: GNU Operating System. Pridobljeno 11. 3. 2017 s spletne strani: https://www.gnu.org/software/wget

How many active sites are there? [blog zapis]. (2008). Bath: Netcraft. Pridobljeno 10. 3. 2017 s spletne strani: https://www.netcraft.com/active-sites

HTTrack website copier: version 3.49-1. (2017). S.l.: Xavier Roche and other contributors. Pridobljeno 11. 3. 2017 s spletne strani: http://www.httrack.com/

Import.io. (2017). Los Gatos, CA: Import.io. Pridobljeno 11. 3. 2017 s spletne strani: https://www.import.io DOI: https://doi.org/10.12987/9780300161762-008

Internet archive wayback machine. (2014). San Francisco: Internet Archive. Pridobljeno 11. 3. 2017 s spletne strani: https://archive.org/web

ISO 28500:2009, Information and documentation – WARC file format. (2009). Geneva: ISO.

Jack, P. (2014). Heritrix. S.l.: Confluence. Pridobljeno 11. 3. 2017 s spletne strani: https://webarchive.jira.com/wiki/display/Heritrix/Heritrix

Lematizacija. (B. l.). V Wikipedija: prosta enciklopedija. Pridobljeno 15. 3. 2017 s spletne strani: https://sl.wikipedia.org/wiki/Lematizacija

Luhn, H. P. (1957). A statistical approach to mechanized encoding and searching of literary information. IBM journal of research and development, 1(4), 309–317. doi:10.1147/rd.14.0309 DOI: https://doi.org/10.1147/rd.14.0309

Parsehub. (2017). Toronto: ParseHub. Pridobljeno 11. 3. 2017 s spletne strani: https://www.parsehub.com

Perma.cc. (2013). Cambridge, MA: Harvard Law School Library. Pridobljeno 12. 3. 2017 s spletne strani: https://perma.cc

Scrapinghub. (2010). Cork: Scrapinghub. Pridobljeno 11. 3. 2017 s spletne strani: https://scrapinghub.com

Term frequency-Inverse document frequency. (B. l.). V Wikipedia: the free encyclopedia. Pridobljeno 10. 3. 2017 s spletne strani: https://en.wikipedia.org/wiki/Tf%E2%80%93idf

WebCite. (B. l.). Toronto: WebCite Consortium. Pridobljeno 11. 3. 2017 s spletne strani: http://www.webcitation.org/

Zakon o obveznem izvodu publikacij (ZOIPub). (2006). Uradni list RS, št. 69/2006 in 86/2009.

Prenosi

Objavljeno

06.10.2017

Številka

Rubrika

ČLANKI

Kako citirati

Kragelj, M., & Kovačič, M. (2017). Uporabna vrednost podatkov spletnih zajemov: arhiviranje spletnih mest in analiza spletnih vsebin. Knjižnica: Revija Za področje Bibliotekarstva in Informacijske Znanosti, 61(1-2), 235–250. https://doi.org/10.55741/knj.61.1-2.13841