Erbjuder webbplatsen standardfiler?

Ett test som började köras i januari 2020 är att kolla efter webbplatsers standardfiler. Erbjuder webbplatserna några av de standardfiler man kan förvänta sig både som användare och maskin?

Filer det letas efter är:

  • robots.txt - som enligt webbstandard ska ligga i webbplatsens rot och heta just robots.txt
  • Hänvisning till en sitemap eller siteindex från robots.txt – för att få en lista över webbplatsens innehåll.
  • En RSS-prenumeration – för att göra detta helt rätt ska det anges i webbsidornas meta-tagg och inte enbart genom en synlig länk.
  • security.txt - låt välvilligt sinnade hackare berätta om dina problem med informationssäkerhet.

Tänkt betygsystem och upplägg

Alla testade får inledningsvis 5,0 i betyg för att beroende på hur de presterar eventuellt få avdrag. De kan som lägst få en etta i betyg, även om deras sammanräknade betyg blir lägre kommer det bli 1.

robots.txt

En webbplats som inte verkar ha en robots.txt i webbplatsens rot får avdrag från sitt betyg. Sedan 16:e mars 2021 går det bra med en redirect från /robots.txt till annan plats.

En robots.txt ska man ha för att berätta lite instruktioner om webbplatsen till maskiner som bearbetar webben, exempelvis sökmotorers spindlar som indexerar innehållet. Det är allmän hyfs på webben.

Mer om robots.txt

Sitemaps eller siteindex

De webbplatser som har en robots.txt men inte anger åtminstone en sitemap eller siteindex får avdrag i betyg.

Den första (ifall det finns flera) av de sitemaps som listas i ett index körs genom en enklare innehållskontroll. Om den varken deklarerar sig som en sitemap eller anges vara en sitemapindex kommer webbplatsen få avdrag

Anledningen till varför man ska ha en sitemap och ange den i sin robots.txt är för att verka för den öppna webben. Det är tyvärr inte ovanligt att webbplatsansvariga har en sitemap men inte bemödat sig att berätta om det i sin robots.txt, de kanske bara skapade en för att ge till de största sökmotorerna. Det är att missa poängen med webben.

Webbstandarden för sitemaps säger att du får ha som mest 50 000 st URL:ar i en sitemap och den måste vara under 50 Mb. Ett index måste också endast lista sitemaps på samma domän som webbplatsen som serverade sitemapen. En annan vanlig fråga om Webperf-testerna är att man tror det är ok att lista resurser som inte är HTML-innehåll. Det kan du inte göra enligt standarden.

”A Sitemap index file can only specify Sitemaps that are found on the same site as the Sitemap index file. For example, http://www.yoursite.com/sitemap_index.xml can include Sitemaps on http://www.yoursite.com but not on http://www.example.com or http://yourhost.yoursite.com”

Using Sitemap index files (to group multiple sitemap files)

Mer om sitemaps

RSS-prenumeration

RSS är ett filformat för att kunna prenumerera på artiklar från en webbplats. Det används både av människor i tjänster som Feedly, i appar som NetNewsWire för oss på Mac eller RSS Bandit för Windows, men det kan också användas för att på en organisations intranät lista bra nyhetskällor från webben.

Testet som körs på Webperf är att kolla i HTML-koden om där anges någon länk till ett RSS-flöde, inom meta-taggen, genom så kallad autodiscovery. Om det saknas får webbplatsen 0,5 i avdrag. Det går bra med JSON feed också, det måste inte vara just XML-formatet i RSS för att lyckas med Webperf-testerna.

Security.txt

Det är en framväxande webbstandard att öppet deklarera sina kontaktuppgifter för whitehat hackare, ens säkerhetspolicy, även om man inte deltar i något bounty-program. Om du inte gör det lätt för välvilliga hackare att berätta om brister de hittat kanske de låter bli - det har bara du att förlora på.

De webbplatser som inte har en security.txt, eller att den har felaktigt innehåll, får ett poäng i avdrag.

Har du kommentarer eller synpunkter?

Berätta gärna på Slack eller Mastodon vad du tycker.

Du som kan och vill läsa Python-kod kan alltid kolla detaljerna på Github - funktionen heter standard_files.

Mer om de olika betygen på Webperf


Relaterat innehåll