ia_archiver

ia_archiver wird von BotScope der Kategorie Search zugeordnet. Die Erkennung erfolgt über den User-Agent-String. Das aktuelle Muster:

(ia_archiver|archive\.org_bot|IABot/|Archive-It)

Der UA-Name ia_archiver ist der historische Crawler-Bezeichner des Internet Archive (archive.org / Wayback Machine). Diese alte Bezeichnung wird heute kaum noch verwendet — der aktuelle UA-String lautet Mozilla/5.0 (compatible; archive.org_bot; Wayback Machine Live Record; +http://archive.org/details/archive.org_bot).

BotScope erkennt beide Schreibweisen (ia_archiver, archive.org_bot, IABot/, Archive-It) und fasst sie in dieser Bot-Klassifikation zusammen.

Falls du nicht möchtest, dass deine Seite archiviert wird, kannst du beide UA-Namen in deiner robots.txt ausschließen — siehe Direktive unten. Archive-It (kommerzielle Variante für Bibliotheken und Institutionen) ignoriert robots.txt allerdings teilweise bewusst.

Suchmaschinen-Crawler indexieren öffentlich verfügbare Inhalte für ihre Suchergebnisse. Sie fetchen typischerweise zuerst /robots.txt und respektieren crawl-delay sowie Disallow-Regeln. Hohe Crawl-Frequenz korreliert in der Regel mit guter Sichtbarkeit in den jeweiligen Suchergebnissen.

BotScope aggregiert alle ia_archiver-Anfragen in deiner Session: welche URLs er bevorzugt, wie viele 4xx/5xx-Antworten er bekommt, ob er aus einer oder vielen IPs crawlt, und in welchem Zeitfenster er besonders aktiv ist.

robots.txt-Direktive für ia_archiver

Wenn du ia_archiver nicht crawlen lassen möchtest, ergänze folgenden Block in deiner /robots.txt. Das wirkt nur bei Bots, die robots.txt respektieren — bösartige Crawler ignorieren es.