Spider / Web-Crawler

TL;DR

Web-Crawler, auch bekannt als Spider oder Bots, kriechen durch das World Wide Web, um Seiten für Suchmaschinen zu indizieren, so dass die Ergebnisse, die nach der Suche nach einem bestimmten Keyword angezeigt werden, relevant sind.

Was ist ein Web-Crawler?

Ein Web-Crawler, Spider oder Suchmaschinen-Bot (wie z.B. Googlebot oder Bingbot) crawlt, lädt Inhalte aus dem gesamten Internet herunter und indiziert sie, indem er automatisch auf eine Website zugreift und alle darin enthaltenen Links durchläuft.

Wie funktionieren Web-Crawler?

Suchmaschinen betreiben fast immer Bots, um relevante Links als Antwort auf die Suchanfragen (Keywords) der Benutzer zu sammeln, zu indizieren und bereitzustellen.

Die Rolle eines Suchmaschinen-Crawler-Bots ist der einer Person sehr ähnlich, die eine ganze Bibliothek organisiert und eine leicht zu überprüfende Seite oder einen Katalog aller Bücher erstellt, um sie leicht zu finden; in ähnlicher Weise organisieren die Bots die Seiten im Web und zeigen die relevanten Seiten an, je nachdem, was eine Person sucht.

Neue Seiten und Sites werden jede Sekunde aktualisiert und veröffentlicht, und das Hauptziel der Web-Crawler ist es, von einer Liste bekannter URLs aus zu crawlen und weiterzumachen, indem sie Hyperlinks zu anderen URLs finden und diese der Liste der als nächstes zu crawlenden Seiten hinzufügen.