Lösung für Problem mit aufwendiger Datenverarbeitung

**Quetschi** · 11.06.2010, 08:37

Das mit dem Selbst-Aufruf per Location-Header auf das gleiche Script ist irgendwie auch mehr ein *würgaround*

. Eigentlich ist das eine Aufgabenstellung, bei der das Script nicht an einen Browser gebunden sein sollte. Wer will schon nachts den Heimrechner eingeschaltet lassen, nur damit dieses Script läuft? Und wenn es aus nicht geklärter Ursache zu einem Abbruch kommt, geht nichts mehr weiter.

Dachte zunächst auch daran, dass man das Script immer wieder sich selbst aufrufen lassen könnte und die Ausgaben in den Hintergrund verschiebt, sodass das startende Script nicht mehr auf das aufgerufene wartet. Aber viel besser als die Location-Header-Variante ist das auch nicht.

Wenn die Max-Ausführungszeit nicht hochgesetzt bzw. auf unendlich gestellt werden kann, plädiere ich für eine Lösung per CronJob mit einer bestimmten Anzahl an Domains die durchlaufen werden dürfen und den von dir angesprochenen Flags in der DB.

**aberultra** · 11.06.2010, 08:49

Wenn ich das Script per Cronjob ausführe, reicht dann ein einmaliger "anstubser" und wenn es sauber programmiert ist, ruft sich das Script immer wieder von selbst auf?

Sprich ein Timer der nach 10 sek das Script/Schleife beendet und das gleiche Script mit entsprechenden Parametern wieder erneut aufruft? (Mittels header-location, gibt es da bessere Möglichkeiten?)

MfG

**Quetschi** · 11.06.2010, 09:35

Zitat von aberultra Beitrag anzeigen

Wenn ich das Script per Cronjob ausführe, reicht dann ein einmaliger "anstubser" und wenn es sauber programmiert ist, ruft sich das Script immer wieder von selbst auf?

Wenn Cronjobs zur Verfügung stehen, würde ich eben auf einen - auch welche Art auch immer gemachten - Selbstaufruf verzichten. Lieber eben den Cronjob in regelmässigen Abständen ausführen lassen.

Ist zumindest meine Ansicht die keinen Anspruch darauf erhebt, der Weisheit letzter Schluss zu sein.

**Bebop** · 11.06.2010, 10:17

Hallo aberultra,

wenn du dir den zwischenstand im Browser ausgeben möchtest ist deine einzige möglichkeit (meines wissens nach) nach jedem schleifendurchlauf flush() aufzurufen um dir die echos ausgeben zu lassen.

Bei jedem Server kann die Puffer größe anders sein und es ist nicht gewährleistet das die ausgabe nach jedem durchlauf akt. wird, erst wenn der puffer die mindestgröße erreicht wird über flush() eine ausgabe erzeugt. (meines wissens nach)

wie rufst du die seite denn auf? mit file_get_contents() ? Nach meiner Erfahrung ist der verbindungsaufbau eigt. das langsamste an solchen skripten, da kann man vieles mit CURL rausholen indem man mehrere seiten auf einmal abschickst und nicht eine nach der anderen so kannst du theoretisch in der selben zeit x so viele seiten abfragen.

das timeout bleibt aber weiterhin ein Problem, da kann ich dir auch nur zum cronjob raten ODER

du baust dir eine seite die den cron mit ajax implementiert. Dann kannst du dein PHP skript z.b. so einstellen das es immer nur eine Seite verarbeitet und sobald das skript fertig ist lässt du dir die ausgabe mit ajax auf der seite ausgeben und rufst das skript nochmal auf. So weisst du genau welche Seiten bearbeitet wurden und es ist unahängig vom timeout.

PHP hat einen großen Speicherbrauch bei großen Arrays, das wird aber eigt. erst bei sehr großen Arrays (500K) bemerkbar. Evtl. solltest du dein speicherbrauch auch im auge behalten memory_get_usage().

Ich hoffe ich konnte dir helfen.

**Quetschi** · 11.06.2010, 10:21

CURL wäre auch IMHO das Mittel der Wahl - damit kann man schließlich sehr schön auf Sachen reagieren wie ein Server der zu lange zum Antworten braucht oder der die Daten zu langsam liefert.

Die Verarbeitung auf der einen und Sachen wie Ausgabe von aktuellem Status würde ich in 2 verschiedenen Scripten erledigen.

**Kropff** · 11.06.2010, 10:30

Zitat von Quetschi Beitrag anzeigen

Das mit dem Selbst-Aufruf per Location-Header auf das gleiche Script ist irgendwie auch mehr ein *würgaround*

. Eigentlich ist das eine Aufgabenstellung, bei der das Script nicht an einen Browser gebunden sein sollte. Wer will schon nachts den Heimrechner eingeschaltet lassen, nur damit dieses Script läuft?

Wenn der Server ein Linux-System ist, so kann man das wunderbar mit Lynx und cronjob erledigen. Einfach per shell-Script Lynx aufrufen und URL setzen. Musste das mal vor ein paar Jahren machen und das wunderbar funktioniert.

Peter

**Quetschi** · 11.06.2010, 10:39

@Kropff

Ich will auch gar nicht behaupten, dass sowas nicht funktionieren kann

Nur erscheinen mir solche Methoden immer etwas "von-hinten-durch-die-Brust-ins-Auge"

Einen Vorteil hat die Sache allerdings:
Bei einer reinen CronJob-Lösung muss man selbst wieder dafür sorgen, dass die Sache nicht immer im Leerlauf wiederholt wird, wenn es nix mehr zu spydern/crawlen oder sonstwas gibt - also wenn keine Wiederholung der Aktion gewünscht ist, wenn alle Domains abgehandelt wurden.

Bei einem Selbstaufruf kann man natürlich eine entsprechende Abbruchbedingung einbauen.

**aberultra** · 11.06.2010, 12:14

Danke für euren zahlreichen Antworten!

Habe jetzt mal weiter dran geschrieben. Funktioniert soweit auch wunderbar.

@Bepob: mit cURL arbeite ich an diesem Projekt schon von haus auf

ist einfach das optimalste in dieser Situation. Hast Du irgendeine gute Source wo man sich mal schlauer machen kann in Richtung multi-threading mit cURL?

Grüße an alle

**Bebop** · 11.06.2010, 12:54

Hallo aberultra,

die erste Source die mir einfällt bin ich (- ;

ansonsten php.net und google, wenn du nach curl asynchron googelst findest du sicherlich die selben tuts die ich durchlesen musste : D

allerdings fande ich die alle nicht toll, deswegen im anschluss eine kleine klasse von mir die ohne anspruch auf perfektion erlaubt eine beliebige anzahl an handles zu initialisieren und eine methode zu übergeben die den response verarbeitet sobald dieser da ist.

Vielleicht ist das ein guter anfang um es besser zu machen und es anzupasen (- :

PHP-Code:


<?php

class MyCurl 

{



    // multi curl handle

    protected $_mch;

    // array curl handles 

    protected $_aCh = array();

    // anzahl verarbeitet 

    protected $_verarbeitet = 0;

    // array respons

    public $aResponse = array();

    

    public function __construct()

    {

        // init multi curl

        $this->_mch = curl_multi_init();

    }

    

    /**

     * Fügt dem multi handle einen handle hinzu

     * 

     * @param string $url

     * @param mixed $data

     */

    public function add($url, $data = array())

    {

        // curle handle init

        $_ch = curl_init($url);

        // curle handle opt

        curl_setopt($_ch, CURLOPT_RETURNTRANSFER, TRUE);

        // multi handle add

        curl_multi_add_handle($this->_mch, $_ch);

        // store curl handles with extra data

        $this->_aCh[(string) $_ch] = array(

            'ch'    => $_ch,

            'url'    => $url,

            'data'  => $data,

        );

    }

    

    

    public function exec()

    {

        // ausführen

        $_running_earlier = 0;

        do {

            // exec

            curl_multi_exec($this->_mch, $_running);

            

            // some handle is / are  ready

            if ($_running != $_running_earlier) {

                // anzahl speichern

                $_running_earlier = $_running;

                // some verarbeiten

                while ($info = curl_multi_info_read($this->_mch)) {

                    // resposne verarbeiten

                    $this->response($info['handle']);

                    // aufräumen (speicher)

                    curl_multi_remove_handle($this->_mch, $info['handle']);

                    curl_close($info['handle']);                                        

                }

            }

            

        } while($_running > 0);

    }

    

    public function response($ch)

    {

        $aCinfo    = curl_getinfo($ch);

        $sResponse = curl_multi_getcontent($ch);

        

        if (empty($this->aResponse)) {

            throw new Exception(__METHOD__.' response kann nicht verarbeitet werden, kein response callback eingerichtet');

        }

        

        $method = $this->aResponse[1];

        $this->aResponse[0]->$method($sResponse, $aCinfo, $this->_aCh[(string) $ch]['data']);

        

    }

    

    // setzt das objekt und dessen methode welches den response verarbeiten soll

    public function setResponse($obj, $method)

    {

        if (!method_exists($obj, $method)) {

            throw new Exception(__METHOD__.' Methode im Objekt nicht gefunden: '.$method);

        }

        

        $this->aResponse = array(

            $obj, 

            $method,

        );

    }

    

}

?>

und hier noch eine möglchkeit sie anzuwenden:

PHP-Code:


public function beispiel ()

{

    // könnten z.b. deine urls sein

    $_a = $this->model->restore_something();

    // curl init

    $_oCurl = new MyCurl;

    $_oCurl->setResponse($this, 'process_html');

    // url init

    foreach ($_a as $_s) {

        $_oCurl->add($_s['url'], $_s['id']);

    }

    // exec

    $_oCurl->exec();

}



public function process_html($sHTML, $aInfo, $mData)

{

    echo '<pre>'. print_r($aInfo, TRUE) .'</pre>';

}

**aberultra** · 11.06.2010, 13:09

Zitat von Bebop Beitrag anzeigen

Hallo aberultra,

die erste Source die mir einfällt bin ich (- ;

ansonsten php.net und google, wenn du nach curl asynchron googelst findest du sicherlich die selben tuts die ich durchlesen musste : D

allerdings fande ich die alle nicht toll, deswegen im anschluss eine kleine klasse von mir die ohne anspruch auf perfektion erlaubt eine beliebige anzahl an handles zu initialisieren und eine methode zu übergeben die den response verarbeitet sobald dieser da ist.

Vielleicht ist das ein guter anfang um es besser zu machen und es anzupasen (- :

PHP-Code:


<?php
class MyCurl 
{

    // multi curl handle
    protected $_mch;
    // array curl handles 
    protected $_aCh = array();
    // anzahl verarbeitet 
    protected $_verarbeitet = 0;
    // array respons
    public $aResponse = array();
    
    public function __construct()
    {
        // init multi curl
        $this->_mch = curl_multi_init();
    }
    
    /**
     * Fügt dem multi handle einen handle hinzu
     * 
     * @param string $url
     * @param mixed $data
     */
    public function add($url, $data = array())
    {
        // curle handle init
        $_ch = curl_init($url);
        // curle handle opt
        curl_setopt($_ch, CURLOPT_RETURNTRANSFER, TRUE);
        // multi handle add
        curl_multi_add_handle($this->_mch, $_ch);
        // store curl handles with extra data
        $this->_aCh[(string) $_ch] = array(
            'ch'    => $_ch,
            'url'    => $url,
            'data'  => $data,
        );
    }
    
    
    public function exec()
    {
        // ausführen
        $_running_earlier = 0;
        do {
            // exec
            curl_multi_exec($this->_mch, $_running);
            
            // some handle is / are  ready
            if ($_running != $_running_earlier) {
                // anzahl speichern
                $_running_earlier = $_running;
                // some verarbeiten
                while ($info = curl_multi_info_read($this->_mch)) {
                    // resposne verarbeiten
                    $this->response($info['handle']);
                    // aufräumen (speicher)
                    curl_multi_remove_handle($this->_mch, $info['handle']);
                    curl_close($info['handle']);                                        
                }
            }
            
        } while($_running > 0);
    }
    
    public function response($ch)
    {
        $aCinfo    = curl_getinfo($ch);
        $sResponse = curl_multi_getcontent($ch);
        
        if (empty($this->aResponse)) {
            throw new Exception(__METHOD__.' response kann nicht verarbeitet werden, kein response callback eingerichtet');
        }
        
        $method = $this->aResponse[1];
        $this->aResponse[0]->$method($sResponse, $aCinfo, $this->_aCh[(string) $ch]['data']);
        
    }
    
    // setzt das objekt und dessen methode welches den response verarbeiten soll
    public function setResponse($obj, $method)
    {
        if (!method_exists($obj, $method)) {
            throw new Exception(__METHOD__.' Methode im Objekt nicht gefunden: '.$method);
        }
        
        $this->aResponse = array(
            $obj, 
            $method,
        );
    }
    
}
?>

und hier noch eine möglchkeit sie anzuwenden:

PHP-Code:


public function beispiel ()
{
    // könnten z.b. deine urls sein
    $_a = $this->model->restore_something();
    // curl init
    $_oCurl = new MyCurl;
    $_oCurl->setResponse($this, 'process_html');
    // url init
    foreach ($_a as $_s) {
        $_oCurl->add($_s['url'], $_s['id']);
    }
    // exec
    $_oCurl->exec();
}

public function process_html($sHTML, $aInfo, $mData)
{
    echo '<pre>'. print_r($aInfo, TRUE) .'</pre>';
}

Habe vielen Dank! Diese Klasse werde ich mir mit Sicherheit noch näher zu Gemüte führen. Sehr interessant das Thema.

Lösung für Problem mit aufwendiger Datenverarbeitung

Kommentar

Kommentar

Kommentar

Kommentar

Kommentar

Kommentar

Kommentar

Kommentar

Kommentar

Kommentar

Wird geladen... Bitte warte.

Lösung für Problem mit aufwendiger Datenverarbeitung

Kommentar

Kommentar

Kommentar

Kommentar

Kommentar

Kommentar

Kommentar

Kommentar

Kommentar

Kommentar