Ett test som började köras i januari 2020 är att kolla efter webbplatsers standardfiler. Erbjuder webbplatserna några av de standardfiler man kan förvänta sig både som användare och maskin?
Filer det letas efter är:
- robots.txt - som enligt webbstandard ska ligga i webbplatsens rot och heta just robots.txt
- Hänvisning till en sitemap eller siteindex från robots.txt – för att få en lista över webbplatsens innehåll.
- En RSS-prenumeration – för att göra detta helt rätt ska det anges i webbsidornas meta-tagg och inte enbart genom en synlig länk.
- security.txt - låt välvilligt sinnade hackare berätta om dina problem med informationssäkerhet.
Tänkt betygsystem och upplägg
Alla testade får inledningsvis 5,0 i betyg för att beroende på hur de presterar eventuellt få avdrag. De kan som lägst få en etta i betyg, även om deras sammanräknade betyg blir lägre kommer det bli 1.
robots.txt
En webbplats som inte verkar ha en robots.txt i webbplatsens rot får 3 i avdrag från sitt betyg. Sedan 16:e mars 2021 går det bra med en redirect från /robots.txt till annan plats.
En robots.txt ska man ha för att berätta lite instruktioner om webbplatsen till maskiner som bearbetar webben, exempelvis sökmotorers spindlar som indexerar innehållet. Det är allmän hyfs på webben.
Sitemaps eller siteindex
De webbplatser som har en robots.txt men inte anger åtminstone en sitemap eller siteindex får 2 i avdrag i betyg. Det vill säga att de är nere på en trea i betyg eftersom de trots allt har en robots.txt
Den första (ifall det finns flera) av de sitemaps som listas körs genom en simpel innehållskontroll. Om den varken deklarerar sig som en sitemap eller anges vara en sitemapindex kommer webbplatsen få 1 i avdrag, det vill säga vara nere på en tvåa.
Anledningen till varför man ska ha en sitemap och ange den i sin robots.txt är för att verka för den öppna webben. Det är tyvärr inte ovanligt att webbplatsansvariga har en sitemap men inte bemödat sig att berätta om det i sin robots.txt, de kanske bara skapade en för att ge till de största sökmotorerna. Det är att missa poängen med webben.
RSS-prenumeration
RSS är ett filformat för att kunna prenumerera på artiklar från en webbplats. Det används både av människor i tjänster som Feedly, i appar som NetNewsWire för oss på Mac eller RSS Bandit för Windows 10, men det kan också användas för att på en organisations intranät lista bra nyhetskällor från webben.
Testet som körs på Webperf är att kolla i HTML-koden om där anges någon länk till ett RSS-flöde, inom meta-taggen, genom så kallad autodiscovery. Om det saknas får webbplatsen 0,5 i avdrag.
Security.txt
Det är en framväxande webbstandard att öppet deklarera sina kontaktuppgifter för whitehat hackare, ens säkerhetspolicy, även om man inte deltar i något bounty-program. Om du inte gör det lätt för välvilliga hackare att berätta om brister de hittat kanske de låter bli - det har bara du att förlora på.
De webbplatser som inte har en security.txt, eller att den har felaktigt innehåll, får ett poäng i avdrag.
Har du kommentarer eller synpunkter?
Berätta gärna på Slack eller Mastodon vad du tycker.
Du som kan och vill läsa Python-kod kan alltid kolla detaljerna på Github - funktionen heter standard_files.