Im Internet gibt es eine scheinbar unendliche Menge an Wissen, Informationen, Daten und Medien. Erst durch Suchmaschinen werden diese Unmengen durchsuchbar. Dabei kommen Webcrawler zum Einsatz. Doch wie genau funktioniert das und wo werden Webcrawler noch verwendet?
Einordnung zum Thema (Audio 🎧)
Webcrawler
Ein Crawler ist eine Form von Bot, dessen Aufgabe es ist, einen einzelnen Link oder auch das gesamte Internet auszukundschaften. Häufig werden sie auch Scraper oder Spider genannt. Am üblichsten sind die folgenden zwei Variationen.
Variationen
Beispiel: Linkvorschauen
Linkvorschauen sind überall, egal ob auf Social-Media-Plattformen oder in Instant-Messaging-Diensten.
Wird von einem Link eine Vorschau benötigt, ruft ein Webcrawler die Seite auf und analysiert sie. Je nach Implementierung werden beispielsweise nur der Webseitentitel, ein Textauszug, ein Bild oder eine Kombination daraus zurückgegeben. Inzwischen hat man sich auf einen gemeinsamen Standard namens Open Graph1 geeinigt. Open Graph ermöglicht es Webseitenbetreibern, den Inhalt der Vorschau zu optimieren und präzise zu steuern.
Beispiel: Suchmaschinen
Suchmaschinen nutzen im Hintergrund eine komplexere Form von Webcrawlern.
Möchte eine Suchmaschine etwa https://zierhut-it.de/ indexieren, muss die Seite zuerst erkundet werden. Dafür gibt es verschiedene Möglichkeiten. Eine davon besteht darin, beginnend von einer Seite die Verlinkungen zu anderen Unterseiten rekursiv aufzurufen.
Gibt eine Suchmaschine einem internen Crawler beispielsweise den Link https://zierhut-it.de, passiert Folgendes:
- Der Crawler ruft, wie ein Mensch auch, die Seite auf.
- Inhalte, Texte, Medien und Bilder der aufgerufenen Seite werden analysiert.
- Eine Liste aller verlinkten Seiten wird erstellt, etwa:
Nun wird jeder einzelne Link dieser Liste nach demselben Prinzip aufgerufen und analysiert. Werden neue Links gefunden, werden auch diese verarbeitet.
Wenn der Crawler bei https://zierhut-it.de/ begonnen hat und darüber auf https://zierhut-it.de/blog/ gestoßen ist, würde er im nächsten Schritt die Blogartikel erkunden und dort weitere Links finden. Parallel dazu würde er https://zierhut-it.de/legal/imprint und https://www.linkedin.com/company/zierhut-it aufrufen, sofern diese Seiten nicht bereits zuvor verarbeitet wurden.
Das Erkunden von Seiten über Verlinkungen nimmt sehr schnell enorme Ausmaße an.
Bösartige Crawler
Crawler bilden das Rückgrat von Suchmaschinen und Linkvorschauen.
Dennoch gibt es auch bösartige Webcrawler.
Ein Beispiel hierfür wäre eine unerlaubte Form von Data Mining. Ein Angreifer lädt dabei, ähnlich wie eine Suchmaschine, gezielt einzelne Teile oder auch die gesamte Seite herunter, gibt sich nicht als Crawler zu erkennen und missbraucht die erhobenen Daten in unterschiedlichen Formen.
In der Case Study Schutzmaßnahmen gegen Betrug in der Reichweitenanalyse sind wir ebenfalls auf die Abwehr von Bots und Webcrawlern eingegangen.