- Alles over SEO -

Wat is een crawler? En hoe belangrijk zijn crawlers voor SEO?

arrow_back_ios Terug naar vorige pagina

(Web)crawlers spelen een cruciale rol in de wereld van SEO. Crawlers worden ook wel spider, of spiderbot genoemd. De crawlers waarover we spreken hebben als doel om pagina's op het internet te vinden en te indexeren. De belangrijkste crawler waar waarover we het hebben is Googlebot

Wat zijn crawlers?

Crawlers zijn stukjes software die geprogrammeerd zijn om automatisch informatie op het web te vinden en te verwerken. Binnen SEO worden er aandachtig naar crawlers gekeken omdat deze informatie verzameld die mogelijk kan worden weergegeven in zoekmachines. Veel website-eigenaren doen dan ook hun uiterste best de website zo toegankelijk mogelijk te maken voor deze crawlers.

Hoe werken crawlers?

Crawlers gaan op zoek naar informatie en gegevens op websites en in mindere maten mobiele applicaties. Een crawler begint met een website URL of een lijst aan URL's. Een crawler bezoekt deze URL's en scant de inhoud van website achter deze URL's. Tijdens het bezoek zoekt de crawler naar linkjes en slaat deze op aan een "te bezoeken" lijst om deze pagina's in de toekomst te bezoeken. Tijdens het bezoeken van de pagina's slaat een crawler de gevonden informatie op, vaak om het zoeken binnen de betreffende pagina's in de toekomst te vereenvoudigen.

Crawlers worden bijna altijd ingezet door zoekmachines. Verschillendde algoritmes sturen de crawlers aan en vertellen naar welke informatie ze moeten zoeken. Je kunt een crawler zien als iemand die door een hele collectie boeken struint en belangrijke informatie arceert met een marker. Zo kan iemand op een later moment vliegensvlug gebruik maken van deze nuttige informatie zonder zelf het boek te moeten lezen.

Een crawler werkt als vogt:

  • Kies een startpunt (bestaande webpagina of lijst aan pagina's: sitemap)
  • Bekijk de pagina en sla belangrijke informatie op
  • Volg de links op de pagina en ontdek nieuwe pagina's om te crawlen

Het crawlen van het web is erg kostbaar. Er zijn miljoenen websites actief. Crawlers zijn dag en nacht bezig al deze informatie op te slaan en te verwerken. Om te zorgen dat ze dit op de meest effieciente wijze doen werken ze volgens bepaalde regels.

Niet alle pagina's zijn even relavant. Pagina's met weinig content of pagina's die nauwelijks bezocht worden zijn niet interessant.

Sommige pagina's zijn juist erg interessant en worden regelmatig geupdatet. De crawler moet in dit geval periodiek terugkomen om de updates te verwerken.

Het crawlen van je site

Het crawlen van je website is een geautomatiseerd proces waarbij stukjes software de computer aansturen om je pagina's te bezoeken op dezelfde manier als normale websitebezoekers zouden doen.

Een leuk weetje: de bekendste crawler heet: Googlebot, en deze is natuurlijk... van Google.

Crawlers gedragen zich als echte bezoekers. Ze klikken op linkjes op je pagina's, lezen de teksten en bekijken afbeeldingen.

Google heeft enorme krachtige crawlers. De crawlers van Google kunnen in een fractie van een seconden enorme hoeveelheden informatie verwerken. Maar ook Google kan soms wat hulp gebruiken.

In Google Search Console is het mogelijk een XML sitemap toe te voegen.

Dit is een document dat Google helpt met het vinden van de pagina's op je website. Vooral voor grote webites is een sitemap een goed middel om Google te helpen al je pagina's te ontdekken.

Nadat Google al je pagina's heeft opgeslagen breekt er een nieuwe fase aan. Het weergeven van de meest relevante zoekresultaten.

Na het intypen van een zoekopdracht gaat een set van algoritmes aan de slag en voorspellen zij welke resultaten het best bij de gegeven zoekopdracht passen. Om te begrijpen waarnaar de gebruiker precies op zoek is gebruikt Google verschillende taalmodellen.

Deze modellen zijn onderdeel van het enorm arsenaal machine learning algoritmes, bedacht en ontwikkeld door de Google zelf. Het belangrijkste model om te begrijpen waar een gebruiker precies naar op zoek is wordt een BERT model genoemd.

Bert modellen werden in 2019 voor het eerst gelanceerd en vormen na Google RankBrain de belangrijkste update van Google in de afgelopen 10 jaar.

Je kunt hier meer lezen over BERT modellen binnen NLP. Niet alleen de zoektermen binnen de zoekopdracht speelt een belangrijke rol in het rangschikken van de zoekresultaten, ook de locatie en de zoekgeschiedenis van de gebruiker spelen een belangrijke rol.

Eigenlijk kun je stellen dat iedereen die Google gebruikt een gepersonaliseerde lijst met zoekresultaten te zien krijgt. Dat is niet het enige.

Google test de gegeven zoekresultaten elke keer wanneer een gebruiker op een zoekresultaat klikt. Dit doen zij met RankBrain een component binnen core-algoritme van Google. Om dit artikel wat korter te houden lees je later meer over het RankBrain algoritme.

Dit zijn de stappen om je website hoger in Google te krijgen:

Waarom crawlers belangrijk zijn voor SEO?

Simpel: als Google je website niet weet te vinden, kunnen ze deze ook niet weergeven. Je wil zorgen dat Google jouw pagina's ziet en opslaat. Over het algemeen gaat het proces van crawlen en weergeven automatisch. Je hebt hier geen invloed op, maar hoeft je er ook geen zorgen over te maken.

Verifiëren of Google je pagina's kan crawlen

Om te verifiëren of Google je pagina's succesvol kan crawlen heb je een account bij Search Console nodig.

Op deze pagina wordt uitgelegd hoe je je site bij Search Console aanmeldt.

Search console homepagina

Na het inloggen bij Search Console klik je in het linkermenu op "Coverage"

Coverage tab searchconsole

Je ziet een scherm met vier knoppen

Uitleg per onderdeel:

  • Error
    In deze tab worden alle pagina's weergegeven waarop errors gevonden zijn. Onder errors vallen pagina's die een statuscode in de range 500–599 teruggeven. Bijvoorbeeld een "500 Internal Server Error"
  • Valid with warnings
    Hieronder verschijnen waarschuwing die gaan over het indexeren van je pagina's en/of de content daarvan. Een voorbeeld is een waarschuwing over missende eigenschappen wanneer je structured data of rich snippets wil opnemen.
  • Valid
    Onder valid komt een overzicht met alle pagina's die goed door Google zijn gecrawld. Een melding die je hier tegen kunt komen is als volgt: "Indexed, not submitted in sitemap". Dit betekent in het kort dat Google meer pagina's heeft gevonden dan je aan hebt gegeven in je sitemap. Dit is geen reden tot zorg. Echter een hint op je sitemap even onder de loep te nemen.
  • Excluded
    De "excluded" tab is belangrijk. Hieronder zie je alle pagina's die NIET door Google worden geïndexeerd. Dit kan zijn omdat de pagina niet gevonden wordt (404), de pagina duplicate content bevat of dat de content om andere manieren niet voldoet om in zoekresultaten te verschijnen.
Screenshot from 2022 01 24 11 31 11

Kort samengevat

Kort samengevat heb je gelezen wat crawlers zijn, dat crawlers voornamelijk door zoekmachines worden ingezet en heb je gelezen hoe crawlers te werk gaan. Heb je vragen over crawlers of wil je meer weten over zoekmachine optimalisatie? Bekijk al onze content. We vertellen je alles over zoekmachine optimalisatie en hoe je je website beter vindbaar maakt in Google.