[Update: Netarkivet er flinke til at hjælpe med den slags problemer]
Robot.txtJeg gik og troede at min server var ved at dø, men nej, nej - det var bare Det Kongelige Bibliotek der gik msnbot i bedene, og føler sig forpligtet til at arkivere verden i røversprog og pi kinisisk. Lørdag arkiverede netarkivet 11400 sider på den måde.Alt offentliggjort materiale vil blive indsamlet, dvs. pligtafleveringsinstitutionernes høstere
vil ikke respektere metoder som robot.txt til at frabede sig høstning af hele eller dele af et
givent netsted.Fra netarkivets vejledning til websites (PDF)
Fordi det er lovpligtig indsamling af materiale på nettet respekterer man ikke robots.txt, og derfor er jeg nu tilbage hvor jeg startede: Mine webtransformationstjenester lægger fuldstændig min server ned, fordi jeg transformerer links også og fordi netarkivet følger linksene (de er jo på en dansk server, nemlig min).
Jeg er helt med på at der skal arkiveres, men at disrespektere robots.txt og undlade andre mekanismer til at anmelde indhold som ligegyldigt for Det Kongelige Bibliotek er simpelthen så dumt at det trodser enhver beskrivelse(det er nok for hårdt) fjollet. Nu bliver jeg nødt til at lave min robotbeskyttelse i CGI istedet. Jeg glæder mig allerede til netarkivet.dk konstaterer at heller ikke den praksis er acceptabel og begynder at fake Internet Explorer istedet for at bruge en identificerbar UserAgent.