Hallo Gemeinde,
ich bin auf der Suche nach einem Script um eine Kundenseite zu crawlen. Diese hat mehr als 100 000 Seiten im Google Index. Die Seite hat jedoch viel mehr - jedoch werden diese per robots.txt ausgeschlossen.
Disallow /*/is-bin/
Ich hab schon mit PHPCrawl_070 experimentiert. Allerdings bricht er bei mir bei ca. 2000 Seiten ab ohne Fehlermeldung und beachtet leider die oben gepostete Regel aus der Robots nicht.
Was ich nun bräuchte ist ein Spider Script das mit also unter Beachtung der robots.txt die einzelne Webseite spidert.
Genial wäre es auch wenn das Script folgendes kann:
1. Beachten der Robots.txt
2. Links mit rel=nofollow werden nicht verfolgt
3. Seiten mit Meta Angabe noindex werden ausgelassen
Ausgabe URLs ähnlich einer Sitemap
Set Time Limit ist bei mir = 0
Memory Limit auf 2GB
Die meisten Script die ich so gefunden habe, halten sich leider nicht an die tobots.txt - z.B. Snoopy
Vielleicht kennt jemand ein gutes Script dass man vielleicht noch anpassen kann.
Gruß Tom
ich bin auf der Suche nach einem Script um eine Kundenseite zu crawlen. Diese hat mehr als 100 000 Seiten im Google Index. Die Seite hat jedoch viel mehr - jedoch werden diese per robots.txt ausgeschlossen.
Disallow /*/is-bin/
Ich hab schon mit PHPCrawl_070 experimentiert. Allerdings bricht er bei mir bei ca. 2000 Seiten ab ohne Fehlermeldung und beachtet leider die oben gepostete Regel aus der Robots nicht.
Was ich nun bräuchte ist ein Spider Script das mit also unter Beachtung der robots.txt die einzelne Webseite spidert.
Genial wäre es auch wenn das Script folgendes kann:
1. Beachten der Robots.txt
2. Links mit rel=nofollow werden nicht verfolgt
3. Seiten mit Meta Angabe noindex werden ausgelassen
Ausgabe URLs ähnlich einer Sitemap
Set Time Limit ist bei mir = 0
Memory Limit auf 2GB
Die meisten Script die ich so gefunden habe, halten sich leider nicht an die tobots.txt - z.B. Snoopy
Vielleicht kennt jemand ein gutes Script dass man vielleicht noch anpassen kann.
Gruß Tom