Wat is crawlen?
Google of een andere zoekmachine stuurt een webcrawler (ook bots of spiders genoemd) naar een webpagina. Deze bot volgt links naar andere pagina’s en blijft deze volgen tot er geen nieuwe pagina’s meer zijn om te volgen. Omdat er geen links meer op een pagina staan. Google’s webcrawler heet Googlebot. Crawlen stopt nooit en is een ongoing proces. Wanneer dit niet continue zou plaatsvinden worden nieuwe pagina’s niet gevonden. Dit kunnen nieuwe pagina’s zijn met waardevolle info voor Google gebruikers. En Google wil de beste zoekresultaten leveren aan gebruikers van Google Search.
Wat is crawlbudget?
Crawlbudget is het aantal pagina’s van een site die een zoekmachine crawlt binnen bepaalde periode. Dit budget is o.a. gebaseerd op de snelheid van de site en omvang van de site (aantal pagina’s).
Wanneer crawlbudget wordt verspilt neemt het budget af. Pagina’s worden dan minder frequent gecrawlt en dit kan leiden tot lagere zoekmachineposities.
Hoe voorkom je dat je crawlbudget verspilt?
Voorkom foutmeldingen en redirect chains en zorg dat Google makkelijk door je site heen kan navigeren.
Crawlen is niet hetzelfde als indexeren
Wanneer je pagina is geïndexeerd door Google kan de pagina in de zoekresultaten voorkomen. Een pagina wordt echter eerst gecrawld voordat de pagina wordt geïndexeerd. Wanneer deze wordt gecrawld bepaald Google of de pagina wordt geïndexeerd.
Moet je je druk maken om crawl budget en SEO?
Martin Splitt van Google vertelt in onderstaande SEO mythbusting video over crawlbudget. De belangrijkste take-aways uit deze video zijn:
- Je hoeft je pas druk te maken over crawlbudget wanneer je een site hebt bestaande uit miljoenen pagina’s.
- Crawlbudget is vaak niet het probleem, eerder de server instellingen.
- De frequency van het crawlen heeft niets te maken met de kwaliteit van een pagina
- Een goede pagina over de geschiedenis van een plantenbak hoeft niet dagelijks of wekelijks gecrawld te worden. Omdat er een kleine kans is dat er nieuwe content over dit onderwerp verschijnt. Dat betekent niet dat deze pagina niet op nummer 1 in de resultaten kan staan. De website van de NOS wijzigt elke paar minuten content omdat er continue nieuwberichten op de site verschijnen. Deze site wordt veel vaker gecrawld dan de site over de plantenbakken. Maar dat wil niet zeggen dat de site van de NOS hoger scoort in de resultaten dan een andere site.
- Google kijkt naar wanneer een pagina’s het laatst is bijgewerkt. Bijvoorbeeld naar de datum in de XML sitemap (last modified date) of door middel van etags. Wanneer je echter vaak deze datum wijzigt maar inhoudelijk wijzigt er niks dan wordt de pagina uiteindelijk toch minder vaak gecrawld.
- Crawl budget heeft invloed op het rendering budget
Bekijk hier de hele video over SEO en crawlbduget: