Was ist ein Crawler?

Im Internet gibt es eine scheinbar unendliche Menge an Wissen, Informationen, Daten und Medien. Erst durch Suchmaschinen werden diese Unmengen durchsuchbar. Dabei kommen Webcrawler zu Hilfe. Doch wie genau funktioniert das und wo werden Webcrawler noch verwendet?

Diskussion zum Thema (Audio)

Webcrawler

Ein Crawler ist eine Form von Bot, dessen einzige Aufgabe es ist, einen einzelnen Link oder das ganze Internet auszukundschaften. Häufig werden sie auch Scraper, Spider genannt. Am Üblichsten sind die beiden folgenden Variationen:

Variationen

Beispiel: Linkvorschauen

Linkvorschauen sind überall. Egal ob auf Social-Media-Plattformen oder Instant-Messaging.

Ist von einem Link eine Vorschau gewünscht, ruft ein Webcrawler die Seite auf und analysiert diese. Je nach Implementierung wird etwa nur der Webseitentitel, ein Ausschnitt der Texte, ein Bild oder eine Kombination daraus zurückgeben. Inzwischen hat man sich aber auf einen gemeinsamen Standard namens Open Graph1 geeinigt. Open Graph ermöglicht es einem als Webseitenbetreiber den Inhalt der Vorschau zu optimieren und präziser zu steuern.

Beispiel: Suchmaschinen

Suchmaschinen nutzen im Hintergrund eine komplexere Form von Webcrawlern.

Möchte eine Suchmaschine etwa https://zierhut-it.de/ indexieren, muss die Seite zuerst erkundet werden. Dafür gibt es verschiedenste Möglichkeiten. Eine davon ist, beginnend von einer Seite, Verlinkungen andere (Unter-) Seiten rekursiv aufzurufen.

Gibt eine Suchmaschine einem internen Crawler beispielsweise den Link https://zierhut-it.de , passiert Folgendes:

  1. Der Crawler ruft, wie ein Mensch auch, die Seite auf.
  2. Inhalte, Texte, Medien und Bilder der aufgerufenen Seite werden analysiert.
  3. Eine Liste aller verlinkten Seiten wird erstellt. Diese könnte etwa wie folgt aussehen:

Nun wird jeder einzelne Link dieser Liste aufgerufen nach demselben Formular gleichermaßen aufgerufen und analysiert. Wurden neue Links gefunden, werden auch diese aufgerufen und analysiert.

Wenn der Crawler nun bei https://zierhut-it.de/ begonnen hat, darüber auf https://zierhut-it.de/blog/ gestoßen ist, würde er im nächsten Schritt die Artikel im Blog erkunden und auf noch mehr Links stoßen. Parallel dazu würde er https://zierhut-it.de/legal/imprint und https://www.linkedin.com/company/zierhut-it aufrufen, vorausgesetzt die Seite wurde nicht schon zuvor verarbeitet.

Das Erkunden von Seiten über Verlinkungen anderer Seiten nimmt sehr schnell unfassbare Mengen an.

Bösartige Crawler

Crawler stellen also das Rückgrat von Suchmaschinen und Linkvorschauen dar.

Dennoch gibt es auch bösartige Webcrawler.

Beispiel hierfür wäre etwa eine ungenehmigte Form von Data-Mining dar. Ein Angreifer lädt hier ähnlich wie eine Suchmaschine gezielt einzelne Teile oder vollständig die Seite herunter, gibt sich nicht als Crawler zu erkennen und missbraucht die ergatterten Daten in unterschiedlichen Formen.

In der Case Study Schutzmaßnahmen gegen Betrug bei fubble.de sind wir auch auf die Mitigierung von Bots und Webcrawler eingegangen.


  1. The Open Graph Protocol  ↩︎