Seiten Crawler:
Downloaden aller Webseiten von einer gegebenen Domain oder Basis URL.
Hinweise
Einschränkung der Crawl Geschwindigkeit
Es werden nicht mehr als 2 Seiten pro Sekunde vom selben Host geladen (nicht mehr als 120 Dokumente per Minute), um die Last auf den Zielserver zu minimieren.
Ziel Balancer
Ein zweiter Crawl für einen anderen Host erhöht den Durchsatz auf ein Maximum von 240 Dokumenten pro Minute weil der der Crawler Balancer die Last über alle Hosts verteilt.
Hochgeschwindigkeits Crawlen
Ein 'oberflächlicher Crawl' der nicht auf einen einzelnen Host (oder eine Seite) limitiert ist
kann die Anzahl der Seiten pro Minute (ppm) auf unendlich viele Dokumente pro Minute erweitern wenn die Anzahl der Ziel Hosts hoch ist.
Das kann erreicht werden durch Verwendung des Crawl Start (Expert) Servlets.
Geplante Steuerung
Die geplante Ausführung von Crawls kann geändert oder entfernt werden mit der API Aktionen Steuerung.