Jeg havde en hyggelig email-samtale med Bjarne, der er driftsleder på netarkivets dataindsamling om mit problem. I situationer som min viser det sig at netarkivet kan slå robots.txt accept selektivt til - eller opsætte urlfiltre for urler der skal ignoreres fordi det er meningsløst at indeksere dem. Man skriver en email til dem på den emailadresse der står i FAQ'en.
Vi diskuterede forskellige muligheder til automatisk at angive at indhold helt specifikt er irrelevant for netarkivet, på trods af indleveringspligten. Jeg kom på 2 forslag i mailen, og et mere siden:
- Netarkivet.dk kunne tilbyde at understøtte robots.txt men kun en entry der var specifik for netarkivets crawler. På den måde kan et website specifikt angive urler som ikke er relevant for arkivering. F.eks. transformationsservices som mine
- Hvis den mekanisme er for nem at misbruge kunne man forestille sig istedet at understøtte en archive.txt fil. Den indeholder det samme som robots.txt, men netarkivet kunne forlange ekstra information - e.g. en administrationsemail eller lignende
- Hvis den mekanisme omvendt er for nem at datahøste kunne netarkivet.dk kunne man lave et aktivt web signup til løsning 1
Jeg går helt ind for netarkivet - og dets internationale storebror archive.org så jeg vil godt slå et slag for at gøre netarkiv oplevelsen så positiv som muligt. Har du en mening om hvordan netarkivet skal fungere? Læg en kommentar.