Was ist ein Crawler?

Im Internet gibt es eine scheinbar unendliche Menge an Wissen, Informationen, Daten und Medien. Erst durch Suchmaschinen werden diese Unmengen durchsuchbar. Dabei kommen Webcrawler zum Einsatz. Doch wie genau funktioniert das und wo werden Webcrawler noch verwendet?

Einordnung zum Thema (Audio 🎧)

Webcrawler

Ein Crawler ist eine Form von Bot, dessen Aufgabe es ist, einen einzelnen Link oder auch das gesamte Internet auszukundschaften. Häufig werden sie auch Scraper oder Spider genannt. Am üblichsten sind die folgenden zwei Variationen.

Variationen

Beispiel: Linkvorschauen

Linkvorschauen sind überall, egal ob auf Social-Media-Plattformen oder in Instant-Messaging-Diensten.

Wird von einem Link eine Vorschau benötigt, ruft ein Webcrawler die Seite auf und analysiert sie. Je nach Implementierung werden beispielsweise nur der Webseitentitel, ein Textauszug, ein Bild oder eine Kombination daraus zurückgegeben. Inzwischen hat man sich auf einen gemeinsamen Standard namens Open Graph¹ geeinigt. Open Graph ermöglicht es Webseitenbetreibern, den Inhalt der Vorschau zu optimieren und präzise zu steuern.

Beispiel: Suchmaschinen

Suchmaschinen nutzen im Hintergrund eine komplexere Form von Webcrawlern.

Möchte eine Suchmaschine etwa https://zierhut-it.de/ indexieren, muss die Seite zuerst erkundet werden. Dafür gibt es verschiedene Möglichkeiten. Eine davon besteht darin, beginnend von einer Seite die Verlinkungen zu anderen Unterseiten rekursiv aufzurufen.

Gibt eine Suchmaschine einem internen Crawler beispielsweise den Link https://zierhut-it.de, passiert Folgendes:

Der Crawler ruft, wie ein Mensch auch, die Seite auf.
Inhalte, Texte, Medien und Bilder der aufgerufenen Seite werden analysiert.
Eine Liste aller verlinkten Seiten wird erstellt, etwa:

Nun wird jeder einzelne Link dieser Liste nach demselben Prinzip aufgerufen und analysiert. Werden neue Links gefunden, werden auch diese verarbeitet.

Wenn der Crawler bei https://zierhut-it.de/ begonnen hat und darüber auf https://zierhut-it.de/blog/ gestoßen ist, würde er im nächsten Schritt die Blogartikel erkunden und dort weitere Links finden. Parallel dazu würde er https://zierhut-it.de/legal/imprint und https://www.linkedin.com/company/zierhut-it aufrufen, sofern diese Seiten nicht bereits zuvor verarbeitet wurden.

Das Erkunden von Seiten über Verlinkungen nimmt sehr schnell enorme Ausmaße an.

Bösartige Crawler

Crawler bilden das Rückgrat von Suchmaschinen und Linkvorschauen.

Dennoch gibt es auch bösartige Webcrawler.

Ein Beispiel hierfür wäre eine unerlaubte Form von Data Mining. Ein Angreifer lädt dabei, ähnlich wie eine Suchmaschine, gezielt einzelne Teile oder auch die gesamte Seite herunter, gibt sich nicht als Crawler zu erkennen und missbraucht die erhobenen Daten in unterschiedlichen Formen.

In der Case Study Schutzmaßnahmen gegen Betrug in der Reichweitenanalyse sind wir ebenfalls auf die Abwehr von Bots und Webcrawlern eingegangen.

Open-Source & Schulungen

Projektmanagement

Requirements Engineering

Software-Architektur

UX/Produktstrategie

Datenmigration & ETL

ERP & Buchhaltung

Identität & Verzeichnis

Messaging & Events

Schnittstellen & Automatisierung

CI/CD

Container & Orchestrierung

Infrastruktur als Code

Linux-Server & Distributionen

Observability

Code & Artefakte

Datenplattformen

Kollaboration & Kommunikation

Monitoring & Betrieb

Web & Zugriff

Audits & Reviews

Kritische Infrastrukturen

Zero Trust & Zugriff

Governance und Enablement

MLOps und Datenplattform

Produktintegration

Prototyping und PoCs

Vision und Sprache

Backend & Plattformen

Geschäftsprozesse & ERP

Web-Anwendungen

Basissoftware

Was ist ein Crawler?

Einordnung zum Thema (Audio 🎧)

Webcrawler

Variationen

Beispiel: Linkvorschauen

Beispiel: Suchmaschinen

Bösartige Crawler

Weitere Inhalte zum Thema

Hier ist ein einfacher Weg, um sich vor Spam zu schützen - und Sie kennen ihn bereits!

Warum keine Webseite mehr ohne modernste Kryptographie auskommt. (Verschlüsselung)

Das Rückgrat des Internets und der Grund dafür, warum Sie nicht hunderte IPs auswendig kennen müssen - DNS

So behalten Sie die Komplexität und den Aufwand Ihrer Unternehmens-IT im Griff - Ein Rechenbeispiel

Quellen