Spider Script

JR-EWING

Registrierter Benutzer

Dabei seit: 13.07.2004

Beiträge: 99
- Teilen
- Tweet
#1

Spider Script

21.03.2010, 16:43

Hallo Gemeinde,

ich bin auf der Suche nach einem Script um eine Kundenseite zu crawlen. Diese hat mehr als 100 000 Seiten im Google Index. Die Seite hat jedoch viel mehr - jedoch werden diese per robots.txt ausgeschlossen.

Disallow /*/is-bin/

Ich hab schon mit PHPCrawl_070 experimentiert. Allerdings bricht er bei mir bei ca. 2000 Seiten ab ohne Fehlermeldung und beachtet leider die oben gepostete Regel aus der Robots nicht.

Was ich nun bräuchte ist ein Spider Script das mit also unter Beachtung der robots.txt die einzelne Webseite spidert.

Genial wäre es auch wenn das Script folgendes kann:

1. Beachten der Robots.txt
2. Links mit rel=nofollow werden nicht verfolgt
3. Seiten mit Meta Angabe noindex werden ausgelassen

Ausgabe URLs ähnlich einer Sitemap

Set Time Limit ist bei mir = 0
Memory Limit auf 2GB

Die meisten Script die ich so gefunden habe, halten sich leider nicht an die tobots.txt - z.B. Snoopy

Vielleicht kennt jemand ein gutes Script dass man vielleicht noch anpassen kann.

Gruß Tom

Spambot Falle
Wem das Wasser bis zum Hals steht, sollte nicht den Kopf hängen lassen.
Stichworte: -