Was ist ein Crawler?

Icon For Clock 2 Min. Lesezeit

Im Internet gibt es eine scheinbar unendliche Menge an Wissen, Informationen, Daten und Medien. Erst durch Suchmaschinen werden diese Unmengen durchsuchbar. Dabei kommen Webcrawler zu Hilfe. Doch wie genau funktioniert das und wo werden Webcrawler noch verwendet?

Einordnung zum Thema (Audio ­čÄž)

Webcrawler

Ein Crawler ist eine Form von Bot, dessen einzige Aufgabe es ist, einen einzelnen Link oder das ganze Internet auszukundschaften. H├Ąufig werden sie auch Scraper, Spider genannt. Am ├ťblichsten sind die beiden folgenden Variationen:

Variationen

Beispiel: Linkvorschauen

Linkvorschauen sind ├╝berall. Egal ob auf Social-Media-Plattformen oder Instant-Messaging.

Ist von einem Link eine Vorschau gew├╝nscht, ruft ein Webcrawler die Seite auf und analysiert diese. Je nach Implementierung wird etwa nur der Webseitentitel, ein Ausschnitt der Texte, ein Bild oder eine Kombination daraus zur├╝ckgeben. Inzwischen hat man sich aber auf einen gemeinsamen Standard namens Open Graph1 geeinigt. Open Graph erm├Âglicht es einem als Webseitenbetreiber den Inhalt der Vorschau zu optimieren und pr├Ąziser zu steuern.

Beispiel: Suchmaschinen

Suchmaschinen nutzen im Hintergrund eine komplexere Form von Webcrawlern.

M├Âchte eine Suchmaschine etwa https://zierhut-it.de/ indexieren, muss die Seite zuerst erkundet werden. Daf├╝r gibt es verschiedenste M├Âglichkeiten. Eine davon ist, beginnend von einer Seite, Verlinkungen andere (Unter-) Seiten rekursiv aufzurufen.

Gibt eine Suchmaschine einem internen Crawler beispielsweise den Link https://zierhut-it.de, passiert Folgendes:

  1. Der Crawler ruft, wie ein Mensch auch, die Seite auf.
  2. Inhalte, Texte, Medien und Bilder der aufgerufenen Seite werden analysiert.
  3. Eine Liste aller verlinkten Seiten wird erstellt. Diese k├Ânnte etwa wie folgt aussehen:

Nun wird jeder einzelne Link dieser Liste aufgerufen nach demselben Formular gleicherma├čen aufgerufen und analysiert. Wurden neue Links gefunden, werden auch diese aufgerufen und analysiert.

Wenn der Crawler nun bei https://zierhut-it.de/ begonnen hat, dar├╝ber auf https://zierhut-it.de/blog/ gesto├čen ist, w├╝rde er im n├Ąchsten Schritt die Artikel im Blog erkunden und auf noch mehr Links sto├čen. Parallel dazu w├╝rde er https://zierhut-it.de/legal/imprint und https://www.linkedin.com/company/zierhut-it aufrufen, vorausgesetzt die Seite wurde nicht schon zuvor verarbeitet.

Das Erkunden von Seiten ├╝ber Verlinkungen anderer Seiten nimmt sehr schnell unfassbare Mengen an.

B├Âsartige Crawler

Crawler stellen also das R├╝ckgrat von Suchmaschinen und Linkvorschauen dar.

Dennoch gibt es auch b├Âsartige Webcrawler.

Beispiel hierf├╝r w├Ąre etwa eine ungenehmigte Form von Data-Mining dar. Ein Angreifer l├Ądt hier ├Ąhnlich wie eine Suchmaschine gezielt einzelne Teile oder vollst├Ąndig die Seite herunter, gibt sich nicht als Crawler zu erkennen und missbraucht die ergatterten Daten in unterschiedlichen Formen.

In der Case Study Schutzma├čnahmen gegen Betrug bei fubble.de sind wir auch auf die Mitigierung von Bots und Webcrawler eingegangen.