Bloggarkivet, et hobbyprosjekt

20. mars 2019

Ved siden av oppdrag og heltidstidsjobb har jeg satt i gang et ubetalt hobbyprosjekt. Nettsiden Bloggarkivet er en side som arkiverer nedlagte og inaktive, norske filmblogger. Formålet er å ta vare på innleggene i blogger før de går tapt. Mange har blogget mye bra om filmer i flere år, og når de legger ned skrivingen sin så forsvinner gjerne bloggene som følger av driftskostnader, nedlegging av system, bytting av plattform eller andre årsaker.

Selv har jeg blogget på Filmdagbok siden 2004. Og jeg har hatt god kontakt med andre filmbloggere, som skrev for blogger som nå ikke finnes lenger. Å ta vare på deres blogger på Bloggarkivet, er å ta vare på en del av historien til Filmdagbok.

Forsiden til Filmdagbok.

Teknisk plattform

Valg av publiseringsløsning falt på løsningen jeg kjenner best til, ProcessWire. ProcessWire har ingen lisenskostnader, og er med sin store fleksibilitet mulig å sette opp en hvilken som helst side med. Bloggarkivet skulle romme flere blogger som undersider, hver med sine forfattere, kategorier og merkelapper. Dette er et oppsett eg har jobbet mye med i ProcessWire tidligere, så eg bygget på den erfaringen.

Innhenting av data

Vegen har blitt til etter hvert på hvordan data fra eksisterende og nedlagte blogger har blitt hentet inn. Når eg skriver dette innlegget har fire blogger blitt lagt til:

Ulike metoder har blitt brukt til å hente bilder og innlegg:

Fred Ut, Sønn og Speilet

Disse to bloggene er inaktive, men eksisterende blogger på wordpress.com-tjenesten. Mitt første forsøk med Fred Ut, Sønn var å hente siden ved hjelp av scraping med Octoparse. Resultatet ble vellykket, men krevde en del vasking av dataene og ble for tidkrevende. Et alternativ var å få tilsendt eksporterte filer fra eierne, men eg ønsket samtidig at eierne skulle få minst mulig arbeid. Så etter litt mer søking fant jeg WordPress.com REST API, et glimrende utgangspunkt. I korte trekk bestod jobben av:

  1. Eksportering av innlegg med metadata som JSON-filer. Konvertering av JSON-filene til en stor CSV-fil.
  2. Uthenting av navn på kategorier, merkelapper og forfattere fra CSV-filen. Og import av disse i ProcessWire.
  3. Utbytting av kategorinavn, merkelapper og forfattere i CSV-filen til unike ProcessWire ID-er for disse sidene.
  4. Vasking av HTML-formateringen i tekstfeltet med et sett Regex-regler.
  5. Importering av CSV-filen i ProcessWire.
  6. Massepublisering av alle sider, utenom innleggene, som ble publisert enkeltvis. Ved hver enkelt publisering ble lenker til bilder i innleggene brukt for å hente bildefilene inn i ProcessWire.

Gjemmestedet

Gjemmestedet fant eg i sin helhet på Wayback Machine. Dette var før jeg fant Octoparse og prøvde ut scraping, og formatet på innlegg og side endre seg etter hvert som eg bladde meg gjennom siden som Wayback Machine hadde hentet deler av fra ulike tidspunkter. Jobben med å legge til Gjemmestedet ble manuelt utført, med klipp og lim, inntasting av metadata og oppsett av bilde der dette var tilgjengelig.

FUS!

Til FUS! fikk eg en XML-fil med WordPress-innleggene fra bloggen. Denne var derimot ufullstendig, og hadde ikke med bloggen siste to til tre år. Wayback Machine var til hjelp her for noen få av de resterende innleggene. Bildefilene som finnes på bloggen er også hentet fra Wayback Machine, men innlegg med bilder er i fåtall. FUS! har derfor status som uferdig.

Andre metoder og likhetstrekk

Nye metoder må nok benyttes for å hente data fra blogger etter hvert. Jeg har prøvd ut Blogger API som lover godt, og mottatt noen rene tekstfiler som også kan struktureres. Det er mange likhetstrekk i blogginnlegg på tvers av plattformer, og de fleste passer inn i et oppsett som inneholder blogginnlegg med:

  • Tittel, tekstfelt og bilder/videoer
  • Kategorier og merkelapper
  • Publiseringsdato
  • Forfatter

Ved eventuelle andre interessante metadata vil oppsettet av Bloggarkivet i ProcessWire lett kunne tilpasses.

Speilet på Bloggarkivet.

Design

Jeg er ingen grafisk designer, men jeg sikter mot at Bloggarkivet skal få et pent visuelt uttrykk. Siden bygger derfor på HTML/CSS/JS-rammeverket UIkit. UIkit er fleksibelt, og kan tilpasses i stor grad med liten innsats. Etter hvert som Bloggarkivet utvides og oppsettet setter seg, vil jeg gjøre tiltak som hever sidens visuelle preg og øker brukervennligheten. Inntil videre bruker jeg et minimalistisk webdesign som også Filmdagbok og Asbjørn Ness Web bruker.

Fra nettsiden til UIkit.

Framtiden

Bloggarkivet er under stadig utvikling. Formålet til siden er satt, men utførelsen og eventuelt tekniske løsninger vil kunne tilpasse seg hele vegen. Siden jeg har lagt inn alle blogger i samme oppsett på strukturert vis i dagens ProcessWire-løsning, vil framtidige endringer lett kunne utføres. Med navnet Bloggarkivet på plass, kan det også være mulig andre blogger enn bare filmblogger kommer til siden.

Kategorier

Prosjekt

Merkelapper

ProcessWire