Lösung für Problem mit aufwendiger Datenverarbeitung

Einklappen
X
 
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

  • #16
    Das mit dem Selbst-Aufruf per Location-Header auf das gleiche Script ist irgendwie auch mehr ein *würgaround* . Eigentlich ist das eine Aufgabenstellung, bei der das Script nicht an einen Browser gebunden sein sollte. Wer will schon nachts den Heimrechner eingeschaltet lassen, nur damit dieses Script läuft? Und wenn es aus nicht geklärter Ursache zu einem Abbruch kommt, geht nichts mehr weiter.

    Dachte zunächst auch daran, dass man das Script immer wieder sich selbst aufrufen lassen könnte und die Ausgaben in den Hintergrund verschiebt, sodass das startende Script nicht mehr auf das aufgerufene wartet. Aber viel besser als die Location-Header-Variante ist das auch nicht.

    Wenn die Max-Ausführungszeit nicht hochgesetzt bzw. auf unendlich gestellt werden kann, plädiere ich für eine Lösung per CronJob mit einer bestimmten Anzahl an Domains die durchlaufen werden dürfen und den von dir angesprochenen Flags in der DB.
    Ihr habt ein Torturial durchgearbeitet, das auf den mysql_-Funktionen aufbaut?
    Schön - etwas Geschichte kann ja nicht schaden.
    Aber jetzt seht euch bitte php.net/pdo oder php.net/mysqli bevor ihr beginnt!

    Kommentar


    • #17
      Wenn ich das Script per Cronjob ausführe, reicht dann ein einmaliger "anstubser" und wenn es sauber programmiert ist, ruft sich das Script immer wieder von selbst auf?

      Sprich ein Timer der nach 10 sek das Script/Schleife beendet und das gleiche Script mit entsprechenden Parametern wieder erneut aufruft? (Mittels header-location, gibt es da bessere Möglichkeiten?)

      MfG

      Kommentar


      • #18
        Zitat von aberultra Beitrag anzeigen
        Wenn ich das Script per Cronjob ausführe, reicht dann ein einmaliger "anstubser" und wenn es sauber programmiert ist, ruft sich das Script immer wieder von selbst auf?
        Wenn Cronjobs zur Verfügung stehen, würde ich eben auf einen - auch welche Art auch immer gemachten - Selbstaufruf verzichten. Lieber eben den Cronjob in regelmässigen Abständen ausführen lassen.

        Ist zumindest meine Ansicht die keinen Anspruch darauf erhebt, der Weisheit letzter Schluss zu sein.
        Ihr habt ein Torturial durchgearbeitet, das auf den mysql_-Funktionen aufbaut?
        Schön - etwas Geschichte kann ja nicht schaden.
        Aber jetzt seht euch bitte php.net/pdo oder php.net/mysqli bevor ihr beginnt!

        Kommentar


        • #19
          Hallo aberultra,

          wenn du dir den zwischenstand im Browser ausgeben möchtest ist deine einzige möglichkeit (meines wissens nach) nach jedem schleifendurchlauf flush() aufzurufen um dir die echos ausgeben zu lassen.

          Bei jedem Server kann die Puffer größe anders sein und es ist nicht gewährleistet das die ausgabe nach jedem durchlauf akt. wird, erst wenn der puffer die mindestgröße erreicht wird über flush() eine ausgabe erzeugt. (meines wissens nach)

          wie rufst du die seite denn auf? mit file_get_contents() ? Nach meiner Erfahrung ist der verbindungsaufbau eigt. das langsamste an solchen skripten, da kann man vieles mit CURL rausholen indem man mehrere seiten auf einmal abschickst und nicht eine nach der anderen so kannst du theoretisch in der selben zeit x so viele seiten abfragen.

          das timeout bleibt aber weiterhin ein Problem, da kann ich dir auch nur zum cronjob raten ODER

          du baust dir eine seite die den cron mit ajax implementiert. Dann kannst du dein PHP skript z.b. so einstellen das es immer nur eine Seite verarbeitet und sobald das skript fertig ist lässt du dir die ausgabe mit ajax auf der seite ausgeben und rufst das skript nochmal auf. So weisst du genau welche Seiten bearbeitet wurden und es ist unahängig vom timeout.

          PHP hat einen großen Speicherbrauch bei großen Arrays, das wird aber eigt. erst bei sehr großen Arrays (500K) bemerkbar. Evtl. solltest du dein speicherbrauch auch im auge behalten memory_get_usage().

          Ich hoffe ich konnte dir helfen.

          Kommentar


          • #20
            CURL wäre auch IMHO das Mittel der Wahl - damit kann man schließlich sehr schön auf Sachen reagieren wie ein Server der zu lange zum Antworten braucht oder der die Daten zu langsam liefert.

            Die Verarbeitung auf der einen und Sachen wie Ausgabe von aktuellem Status würde ich in 2 verschiedenen Scripten erledigen.
            Ihr habt ein Torturial durchgearbeitet, das auf den mysql_-Funktionen aufbaut?
            Schön - etwas Geschichte kann ja nicht schaden.
            Aber jetzt seht euch bitte php.net/pdo oder php.net/mysqli bevor ihr beginnt!

            Kommentar


            • #21
              Zitat von Quetschi Beitrag anzeigen
              Das mit dem Selbst-Aufruf per Location-Header auf das gleiche Script ist irgendwie auch mehr ein *würgaround* . Eigentlich ist das eine Aufgabenstellung, bei der das Script nicht an einen Browser gebunden sein sollte. Wer will schon nachts den Heimrechner eingeschaltet lassen, nur damit dieses Script läuft?
              Wenn der Server ein Linux-System ist, so kann man das wunderbar mit Lynx und cronjob erledigen. Einfach per shell-Script Lynx aufrufen und URL setzen. Musste das mal vor ein paar Jahren machen und das wunderbar funktioniert.

              Peter
              Nukular, das Wort ist N-u-k-u-l-a-r (Homer Simpson)
              Meine Seite

              Kommentar


              • #22
                @Kropff

                Ich will auch gar nicht behaupten, dass sowas nicht funktionieren kann

                Nur erscheinen mir solche Methoden immer etwas "von-hinten-durch-die-Brust-ins-Auge"

                Einen Vorteil hat die Sache allerdings:
                Bei einer reinen CronJob-Lösung muss man selbst wieder dafür sorgen, dass die Sache nicht immer im Leerlauf wiederholt wird, wenn es nix mehr zu spydern/crawlen oder sonstwas gibt - also wenn keine Wiederholung der Aktion gewünscht ist, wenn alle Domains abgehandelt wurden.

                Bei einem Selbstaufruf kann man natürlich eine entsprechende Abbruchbedingung einbauen.
                Ihr habt ein Torturial durchgearbeitet, das auf den mysql_-Funktionen aufbaut?
                Schön - etwas Geschichte kann ja nicht schaden.
                Aber jetzt seht euch bitte php.net/pdo oder php.net/mysqli bevor ihr beginnt!

                Kommentar


                • #23
                  Danke für euren zahlreichen Antworten!

                  Habe jetzt mal weiter dran geschrieben. Funktioniert soweit auch wunderbar.

                  @Bepob: mit cURL arbeite ich an diesem Projekt schon von haus auf ist einfach das optimalste in dieser Situation. Hast Du irgendeine gute Source wo man sich mal schlauer machen kann in Richtung multi-threading mit cURL?

                  Grüße an alle

                  Kommentar


                  • #24
                    Hallo aberultra,

                    die erste Source die mir einfällt bin ich (- ;

                    ansonsten php.net und google, wenn du nach curl asynchron googelst findest du sicherlich die selben tuts die ich durchlesen musste : D

                    allerdings fande ich die alle nicht toll, deswegen im anschluss eine kleine klasse von mir die ohne anspruch auf perfektion erlaubt eine beliebige anzahl an handles zu initialisieren und eine methode zu übergeben die den response verarbeitet sobald dieser da ist.

                    Vielleicht ist das ein guter anfang um es besser zu machen und es anzupasen (- :

                    PHP-Code:
                    <?php
                    class MyCurl 
                    {

                        
                    // multi curl handle
                        
                    protected $_mch;
                        
                    // array curl handles 
                        
                    protected $_aCh = array();
                        
                    // anzahl verarbeitet 
                        
                    protected $_verarbeitet 0;
                        
                    // array respons
                        
                    public $aResponse = array();
                        
                        public function 
                    __construct()
                        {
                            
                    // init multi curl
                            
                    $this->_mch curl_multi_init();
                        }
                        
                        
                    /**
                         * Fügt dem multi handle einen handle hinzu
                         * 
                         * @param string $url
                         * @param mixed $data
                         */
                        
                    public function add($url$data = array())
                        {
                            
                    // curle handle init
                            
                    $_ch curl_init($url);
                            
                    // curle handle opt
                            
                    curl_setopt($_chCURLOPT_RETURNTRANSFERTRUE);
                            
                    // multi handle add
                            
                    curl_multi_add_handle($this->_mch$_ch);
                            
                    // store curl handles with extra data
                            
                    $this->_aCh[(string) $_ch] = array(
                                
                    'ch'    => $_ch,
                                
                    'url'    => $url,
                                
                    'data'  => $data,
                            );
                        }
                        
                        
                        public function 
                    exec()
                        {
                            
                    // ausführen
                            
                    $_running_earlier 0;
                            do {
                                
                    // exec
                                
                    curl_multi_exec($this->_mch$_running);
                                
                                
                    // some handle is / are  ready
                                
                    if ($_running != $_running_earlier) {
                                    
                    // anzahl speichern
                                    
                    $_running_earlier $_running;
                                    
                    // some verarbeiten
                                    
                    while ($info curl_multi_info_read($this->_mch)) {
                                        
                    // resposne verarbeiten
                                        
                    $this->response($info['handle']);
                                        
                    // aufräumen (speicher)
                                        
                    curl_multi_remove_handle($this->_mch$info['handle']);
                                        
                    curl_close($info['handle']);                                        
                                    }
                                }
                                
                            } while(
                    $_running 0);
                        }
                        
                        public function 
                    response($ch)
                        {
                            
                    $aCinfo    curl_getinfo($ch);
                            
                    $sResponse curl_multi_getcontent($ch);
                            
                            if (empty(
                    $this->aResponse)) {
                                throw new 
                    Exception(__METHOD__.' response kann nicht verarbeitet werden, kein response callback eingerichtet');
                            }
                            
                            
                    $method $this->aResponse[1];
                            
                    $this->aResponse[0]->$method($sResponse$aCinfo$this->_aCh[(string) $ch]['data']);
                            
                        }
                        
                        
                    // setzt das objekt und dessen methode welches den response verarbeiten soll
                        
                    public function setResponse($obj$method)
                        {
                            if (!
                    method_exists($obj$method)) {
                                throw new 
                    Exception(__METHOD__.' Methode im Objekt nicht gefunden: '.$method);
                            }
                            
                            
                    $this->aResponse = array(
                                
                    $obj
                                
                    $method,
                            );
                        }
                        
                    }
                    ?>
                    und hier noch eine möglchkeit sie anzuwenden:
                    PHP-Code:
                    public function beispiel ()
                    {
                        
                    // könnten z.b. deine urls sein
                        
                    $_a $this->model->restore_something();
                        
                    // curl init
                        
                    $_oCurl = new MyCurl;
                        
                    $_oCurl->setResponse($this'process_html');
                        
                    // url init
                        
                    foreach ($_a as $_s) {
                            
                    $_oCurl->add($_s['url'], $_s['id']);
                        }
                        
                    // exec
                        
                    $_oCurl->exec();
                    }

                    public function 
                    process_html($sHTML$aInfo$mData)
                    {
                        echo 
                    '<pre>'print_r($aInfoTRUE) .'</pre>';

                    Kommentar


                    • #25
                      Zitat von Bebop Beitrag anzeigen
                      Hallo aberultra,

                      die erste Source die mir einfällt bin ich (- ;

                      ansonsten php.net und google, wenn du nach curl asynchron googelst findest du sicherlich die selben tuts die ich durchlesen musste : D

                      allerdings fande ich die alle nicht toll, deswegen im anschluss eine kleine klasse von mir die ohne anspruch auf perfektion erlaubt eine beliebige anzahl an handles zu initialisieren und eine methode zu übergeben die den response verarbeitet sobald dieser da ist.

                      Vielleicht ist das ein guter anfang um es besser zu machen und es anzupasen (- :

                      PHP-Code:
                      <?php
                      class MyCurl 
                      {

                          
                      // multi curl handle
                          
                      protected $_mch;
                          
                      // array curl handles 
                          
                      protected $_aCh = array();
                          
                      // anzahl verarbeitet 
                          
                      protected $_verarbeitet 0;
                          
                      // array respons
                          
                      public $aResponse = array();
                          
                          public function 
                      __construct()
                          {
                              
                      // init multi curl
                              
                      $this->_mch curl_multi_init();
                          }
                          
                          
                      /**
                           * Fügt dem multi handle einen handle hinzu
                           * 
                           * @param string $url
                           * @param mixed $data
                           */
                          
                      public function add($url$data = array())
                          {
                              
                      // curle handle init
                              
                      $_ch curl_init($url);
                              
                      // curle handle opt
                              
                      curl_setopt($_chCURLOPT_RETURNTRANSFERTRUE);
                              
                      // multi handle add
                              
                      curl_multi_add_handle($this->_mch$_ch);
                              
                      // store curl handles with extra data
                              
                      $this->_aCh[(string) $_ch] = array(
                                  
                      'ch'    => $_ch,
                                  
                      'url'    => $url,
                                  
                      'data'  => $data,
                              );
                          }
                          
                          
                          public function 
                      exec()
                          {
                              
                      // ausführen
                              
                      $_running_earlier 0;
                              do {
                                  
                      // exec
                                  
                      curl_multi_exec($this->_mch$_running);
                                  
                                  
                      // some handle is / are  ready
                                  
                      if ($_running != $_running_earlier) {
                                      
                      // anzahl speichern
                                      
                      $_running_earlier $_running;
                                      
                      // some verarbeiten
                                      
                      while ($info curl_multi_info_read($this->_mch)) {
                                          
                      // resposne verarbeiten
                                          
                      $this->response($info['handle']);
                                          
                      // aufräumen (speicher)
                                          
                      curl_multi_remove_handle($this->_mch$info['handle']);
                                          
                      curl_close($info['handle']);                                        
                                      }
                                  }
                                  
                              } while(
                      $_running 0);
                          }
                          
                          public function 
                      response($ch)
                          {
                              
                      $aCinfo    curl_getinfo($ch);
                              
                      $sResponse curl_multi_getcontent($ch);
                              
                              if (empty(
                      $this->aResponse)) {
                                  throw new 
                      Exception(__METHOD__.' response kann nicht verarbeitet werden, kein response callback eingerichtet');
                              }
                              
                              
                      $method $this->aResponse[1];
                              
                      $this->aResponse[0]->$method($sResponse$aCinfo$this->_aCh[(string) $ch]['data']);
                              
                          }
                          
                          
                      // setzt das objekt und dessen methode welches den response verarbeiten soll
                          
                      public function setResponse($obj$method)
                          {
                              if (!
                      method_exists($obj$method)) {
                                  throw new 
                      Exception(__METHOD__.' Methode im Objekt nicht gefunden: '.$method);
                              }
                              
                              
                      $this->aResponse = array(
                                  
                      $obj
                                  
                      $method,
                              );
                          }
                          
                      }
                      ?>
                      und hier noch eine möglchkeit sie anzuwenden:
                      PHP-Code:
                      public function beispiel ()
                      {
                          
                      // könnten z.b. deine urls sein
                          
                      $_a $this->model->restore_something();
                          
                      // curl init
                          
                      $_oCurl = new MyCurl;
                          
                      $_oCurl->setResponse($this'process_html');
                          
                      // url init
                          
                      foreach ($_a as $_s) {
                              
                      $_oCurl->add($_s['url'], $_s['id']);
                          }
                          
                      // exec
                          
                      $_oCurl->exec();
                      }

                      public function 
                      process_html($sHTML$aInfo$mData)
                      {
                          echo 
                      '<pre>'print_r($aInfoTRUE) .'</pre>';

                      Habe vielen Dank! Diese Klasse werde ich mir mit Sicherheit noch näher zu Gemüte führen. Sehr interessant das Thema.

                      Kommentar

                      Lädt...
                      X