Å ta vare på nettsiden for ettertiden

25. april 2019
Asbjørn Ness

Oppdatert 23. januar 2020: Wayback Machine har innført en begrensning, som gjør at man ikke lenger kan sende store mengder URL-er samtidig. Dette gjør metoden som bruker ruby gem-en jeg skriver om utdatert, inntil den blir oppdatert med funksjonalitet som tar høyde for Wayback Machines begrensning.

En av mine digitale interesser er å ta vare på innhold som kan være nyttig eller spennende å se igjen senere. Et av resultatene av denne interessen er nettsiden Bloggarkivet, som du kan lese mer om i innlegget Bloggarkivet, et hobbyprosjekt. I dette innlegget skal jeg derimot ta for meg den gamle traveren Wayback Machine, som har arkivert nettsider siden 1996, og hvordan du kan både lagre og finne igjen dine og andres nettsider.

Wayback Machine

Lagre enkle sider

Har du en nettadresse så kan du med stor sannsynlighet lagre den til Wayback Machine, så sant eieren av siden ikke har laget en fil (robots.txt) på nettsiden sin hvor de spesifikt ber Wayback Machine om ikke å arkivere siden. Du kan gå til Wayback Machine og lime inn nettadressen i et felt der, og siden er lagret. Eventuelt finnes det nettleserutvidelser til Google Chrome (Wayback Machine Extension) og Firefox (Wayback Machine Add-on) som tilbyr denne funksjonaliteten rett fra nettleseren.

Finne igjen enkle sider

Wayback Machine kan du søke etter spesifikke nettadresser. Eventuelt kan du søke etter domenet, og bla i et sidekart. Se sidekartet for Asbjørn Ness Web på Wayback Machine. Nettsiden lar deg bla tilbake i tid og mellom ulike versjoner av enkeltsider på flere måter, via en kalendervisning blant annet.

Lagre flere sider

Har du en større nettside som du i helhet ønsker å arkivere, så finnes det flere metoder for lagring. En forholdsvis enkel metode, men som likevel krever nok innsikt i kommandolinje og Ruby er en ruby gem som heter wayback_archiver (GitHub). Den lar deg sende inn en eller flere nettadresser på flere ulike måter. Standardmetoden når man ikke spesifiserer innsendingsmåte er å søke etter sidekartet og sende inn hele siden.

Ved å installere wayback_archiver og bruke følgende kommando i kommandolinjen, har eg sendt inn hele Bloggarkivet til Wayback Machine. Ved innsendingstidspunktet var det 4380 unike nettadresser, som hadde vært urealtistisk mange å sende inn enkeltvis via Wayback Machines nettside eller nettleserutvidelse:

wayback_archiver https://www.bloggarkivet.no/sidekart/

Laste ned flere sider

På tilsvarende måte, ved å bruke en annen ruby gem som heter wayback-machine-downloader (GitHub), kan man laste ned hele eller deler av en nettside lokalt til datamaskinen. Ved å bruke følgende kommando satte jeg i gang nedlastingen av alle filene til Bloggarkivet som er lagt til i Wayback Machine etter 1. januar 2019:

wayback_machine_downloader https://www.bloggarkivet.no/ --from 201901

Noen ord på slutten

Det finnes flere godbiter på GitHub relatert til Wayback Machine, men til mitt bruk har jeg så langt vært fornøyd med de enkle metodene over. Skulle du ønske å legge til en eller flere sider, eller laste ned en eller flere sider, men verken kan eller har anledning til å sette deg inn i metodene over, ta kontakt med Asbjørn Ness Web for å bestille et oppdrag.