Morgen,
Also nehmen wir an ich möchte von meiner Webseite in regelmäßigen Abständen Mithilfe von Selenium bestimmte Metadaten aus dem Seiten Quelltext auslesen...
Dafür soll ein bereits fertiges PHP-Script (+Cronjob?) auf meinem lokalen System gestartet werden, dass diesen Job übernehmen kann.
Es gibt eine Liste von Sub-URL's als Textdatei die nacheinander aufgerufen und von diesem Script abgearbeitet werden sollen.
Das Ganze soll dabei so aussehen, dass von dieser Liste immer nacheinander je eine Url bearbeitet wird,
das Ergebnis in einem Textfile zwischengespeichert wird und erst nach dem Fertigparsen Selenium weiterarbeitet.
Oder bildlich dargestellt:
Selenium führt den Browser aus > URL-Liste wird geladen > URL1 > PHP-Script in Pfad X wird für diese URL ausgeführt > Quelltext wird ausgelesen > Echo in .txt Datei > weiter mit URL2...
URL-Liste wird geladen > URL2 > PHP-Script in Pfad X wird für diese URL ausgeführt > Quelltext wird ausgelesen > Echo in .txt Datei > weiter mit URL3...
URL-Liste wird geladen > URL3 > PHP-Script in Pfad X wird für diese URL ausgeführt > Quelltext wird ausgelesen > Echo in .txt Datei > weiter mit URL4...
usw. etc.
Das Ganze soll in regelmäßigen Abständen z.b alle 24 Stunden durchgeführt werden. Die Zahl der URL' die abgearbeitet werden soll ist relativ hoch.
(Falls es eine andere einfachere Lösung dafür gibt wäre das auch ok, hab aber gehört Selenium soll die beste und schnellste Alternative für solch browserbasierte Operationen sein?)
Irgendein Tipp oder Idee wie ich sowas am Besten erstellen kann?
Also nehmen wir an ich möchte von meiner Webseite in regelmäßigen Abständen Mithilfe von Selenium bestimmte Metadaten aus dem Seiten Quelltext auslesen...
Dafür soll ein bereits fertiges PHP-Script (+Cronjob?) auf meinem lokalen System gestartet werden, dass diesen Job übernehmen kann.
Es gibt eine Liste von Sub-URL's als Textdatei die nacheinander aufgerufen und von diesem Script abgearbeitet werden sollen.
Das Ganze soll dabei so aussehen, dass von dieser Liste immer nacheinander je eine Url bearbeitet wird,
das Ergebnis in einem Textfile zwischengespeichert wird und erst nach dem Fertigparsen Selenium weiterarbeitet.
Oder bildlich dargestellt:
Selenium führt den Browser aus > URL-Liste wird geladen > URL1 > PHP-Script in Pfad X wird für diese URL ausgeführt > Quelltext wird ausgelesen > Echo in .txt Datei > weiter mit URL2...
URL-Liste wird geladen > URL2 > PHP-Script in Pfad X wird für diese URL ausgeführt > Quelltext wird ausgelesen > Echo in .txt Datei > weiter mit URL3...
URL-Liste wird geladen > URL3 > PHP-Script in Pfad X wird für diese URL ausgeführt > Quelltext wird ausgelesen > Echo in .txt Datei > weiter mit URL4...
usw. etc.
Das Ganze soll in regelmäßigen Abständen z.b alle 24 Stunden durchgeführt werden. Die Zahl der URL' die abgearbeitet werden soll ist relativ hoch.
(Falls es eine andere einfachere Lösung dafür gibt wäre das auch ok, hab aber gehört Selenium soll die beste und schnellste Alternative für solch browserbasierte Operationen sein?)
Irgendein Tipp oder Idee wie ich sowas am Besten erstellen kann?
Kommentar