HTML-Datei parsen und unterteilen?

Einklappen
X
 
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

  • HTML-Datei parsen und unterteilen?

    Hallo allerseits,
    ich habe eine HTML-Datei mit folgendem Pattern:

    PHP-Code:
    <tr><td VALIGN=top WIDTH=9BGCOLOR=#CCCCCC><b>Anzahl</b></td>
    <td VALIGN=top WIDTH=16BGCOLOR=#CCCCCC><b>Art.Nr.</b></td>
    <td VALIGN=top WIDTH=49BGCOLOR=#CCCCCC><b>Text</b></td>
    <td VALIGN=top WIDTH=11BGCOLOR=#CCCCCC ALIGN="RIGHT"><b>Preis</b></td>
    <td VALIGN=top WIDTH=15BGCOLOR=#CCCCCC ALIGN="RIGHT"><b>Betrag</b></td>
    </tr
    Ein Artikel sieht z.B. so aus:

    PHP-Code:
    <tr><td VALIGN=top WIDTH=9ALIGN="RIGHT">1</td>
    <
    td VALIGN=top WIDTH=16%>211245</td>
    <
    td VALIGN=top WIDTH=49%><b><FONT COLOR="#000000">MAX.Value FORTUNE 1000 I Celeron D 346<br>
    </
    FONT></b>inkl3 Jahre Garantieoptional VorOrt</td>
    <
    td VALIGN=top WIDTH=11ALIGN="RIGHT">714.70</td>
    <
    td VALIGN=top WIDTH=15ALIGN="RIGHT">714.70</td>
    </
    tr
    Ich möchte das Ganze nun gerne so parsen, dass ich im obigen Beispiel so etwas habe ( die |-Trenner einfach nur, damit man es besser erkennt. Am besten wären array-elemente ):

    1 | 211245 | MAX.Value FORTUNE 1000 I Celeron D 346<br>inkl. 3 Jahre Garantie, optional VorOrt | 714.70

    Ich habe es bisher mit substr, preg_split und preg_match_all probiert.
    Mit substr kann ich aber nicht den ganzen Block einlesen, resp. weiss nicht wie unterteilen.
    Mit preg_match_all habe ich 100e von Arrays, welche nicht eindeutig identifizierbar sind und die Datei kann vor und nach diesen Blöcken variieren.
    Mit preg_split habe ich mir alles ausser html-code ausgeben lassen, stosse aber auf das selbe Problem wie bei preg_match_all, nämlich dass ich nicht auf Zeilen gehen kann, da diese vor und nach den Blöcken variieren können.

    Hat jemand eine Idee, wie ich das lösen kann?

    Vielen Dank und Gruss

  • #2
    preg_match_all() ist der einzige weg. sonst - datensätze manuell eintragen.

    Kommentar


    • #3
      Wo kommen denn die Artikel her?
      Hab ich das richtig verstanden:
      Du willst die Artikel so ausgeben, wie sie in der Tab. oben angeordnet sind, d. h. pro Artikel den obigen Text ersetzten und hinten anhängen, richtig?
      ___________________________
      Good fight ... good night!

      Kommentar


      • #4
        Hallo, vielen Dank für eure Antworten.
        Die Artikel kommen von unserem Warenwirtschaftssystem (was ein Wort ).
        Ich hätte einfach gerne den jeweiligen Artikel (am besten in einem Array) unterteilt. In obigem Beispiel z.B.:

        Anzahl: 1
        ArtikelNr.: 211245
        Artikel: MAX.Value FORTUNE 1000 I Celeron D 346<br>inkl. 3 Jahre Garantie, optional VorOrt
        Betrag: 714.70

        also am besten dann schlussendlich mal so:

        $hw['article_id'] = '211245'
        $hw['article_count'] = 1
        $hw['article'] = 'MAX.Value FORTUNE 1000 I Celeron D 346<br>inkl. 3 Jahre Garantie, optional VorOrt'
        $hw['price'] = '714.70'

        Ist es denn irgendwie möglich, z.B. nach dem Pattern der Tabelle zu gehen?
        Also z.B. wenn das Pattern nicht <tr><td></td><td></td><td></td><td></td><td></td></tr> ist, dann ignorieren und falls es zutrifft, html wegparsen (mit preg_split), dann Zeile für Zeile durchgehen -> 1. anzahl, 2. artikel-id, 3. artikel-text, 4. betrag ?

        Vielen Dank und Gruss

        Kommentar


        • #5
          du könntest die kompl. HTML Datei mit explode in einzelne Zeilen zerlegen und die dann durchgehen. Dann kannst du ja alle weglassen in denen keine "table" tags vorkommen.
          ___________________________
          Good fight ... good night!

          Kommentar


          • #6
            Ja, aber dann hätte ich viele andere Sachen noch drin, welche ich nicht brauche
            Vorallem können die table-tags ändern, je nach dem ob ein Bearbeiter noch was von Hand reinschreibt, die Adresse des Kunden noch das Land beinhaltet etc. etc.
            Nur folgendes Pattern bleibt immer gleich:

            PHP-Code:
            <tr>
            <
            td></td>
            <
            td></td>
            <
            td></td>
            <
            td></td>
            <
            td></td>
            </
            tr
            Z.B.:

            PHP-Code:
            <tr><td VALIGN=top WIDTH=9ALIGN="RIGHT">1</td>
            <
            td VALIGN=top WIDTH=16%>211245</td>
            <
            td VALIGN=top WIDTH=49%><b><FONT COLOR="#000000">MAX.Value FORTUNE 1000 I Celeron D 346<br>
            </
            FONT></b>inkl3 Jahre Garantieoptional VorOrt</td>
            <
            td VALIGN=top WIDTH=11ALIGN="RIGHT">714.70</td>
            <
            td VALIGN=top WIDTH=15ALIGN="RIGHT">714.70</td>
            </
            tr>

            -------------------------------------------

            <
            tr><td VALIGN=top WIDTH=9ALIGN="RIGHT">1</td>
            <
            td VALIGN=top WIDTH=16%>258453</td>
            <
            td VALIGN=top WIDTH=49%>Microsoft&regOffice 2003 Basic deutsch</td>
            <
            td VALIGN=top WIDTH=11ALIGN="RIGHT">237.00</td>
            <
            td VALIGN=top WIDTH=15ALIGN="RIGHT">237.00</td>
            </
            tr>

            -------------------------------------------

            <
            tr><td VALIGN=top WIDTH=9ALIGN="RIGHT">1</td>
            <
            td VALIGN=top WIDTH=16%>NEROEXPRESS</td>
            <
            td VALIGN=top WIDTH=49%>Nero Express 6.3 SuiteBrenn Software (CD-Version)</td>
            <
            td VALIGN=top WIDTH=11ALIGN="RIGHT">20.00</td>
            <
            td VALIGN=top WIDTH=15ALIGN="RIGHT">20.00</td>
            </
            tr
            Ist es möglich, explizit dieses Pattern zu parsen und alles Andere zu filtern?

            Vielen Dank und Gruss

            Kommentar


            • #7
              Tja, dann würd ich sagen das echt nur preg_match_all hilft, leider kann ich dir mit den regulären ausdrücken nicht helfen.

              Grüße Punisher
              ___________________________
              Good fight ... good night!

              Kommentar


              • #8
                Hallo,
                ich kenne mich leider auch nicht sehr gut mit regulären Ausdrücken aus. Kann mir damit jemand weiterhelfen?

                Vielen Dank und Gruss

                Kommentar


                • #9
                  PHP-Code:
                  $str '<table><tr><td VALIGN=top WIDTH=9% ALIGN="RIGHT">1</td>
                  <td VALIGN=top WIDTH=16%>211245</td>
                  <td VALIGN=top WIDTH=49%><b><FONT COLOR="#000000">MAX.Value FORTUNE 1000 I Celeron D 346<br>
                  </FONT></b>inkl. 3 Jahre Garantie, optional VorOrt</td>
                  <td VALIGN=top WIDTH=11% ALIGN="RIGHT">714.70</td>
                  <td VALIGN=top WIDTH=15% ALIGN="RIGHT">714.70</td>
                  </tr>'
                  ;
                  $str str_replace(array('</td>','<table>'),'--__--',$str);
                  $str striptags($str);
                  preg_match('/--__--(.*)--__--(.*)--__--(.*)--__--(.*)--__--(.*)--__--/sU',$str,$array);
                  echo 
                  '<pre>';
                  print_r($array);
                  echo 
                  '</pre>; 
                  In etwa so ? Code ist ungetestet und nur so auf die schnelle geschrieben

                  Gruss

                  tobi
                  Zuletzt geändert von jahlives; 09.03.2006, 01:23.
                  Gutes Tutorial | PHP Manual | MySql Manual | PHP FAQ | Apache | Suchfunktion für eigene Seiten

                  [color=red]"An error does not become truth by reason of multiplied propagation, nor does truth become error because nobody sees it."[/color]
                  Mohandas Karamchand Gandhi (Mahatma Gandhi) (Source)

                  Kommentar


                  • #10
                    Hallo,
                    vielen Dank für deine Antwort.
                    Ja, das kommt dem Resultat schon sehr nahe
                    Allerdings müsste ich diese Blöcke zuerst isolieren können und dann das Script anwenden. Ich habe vorher noch Sachen wie z.B.:

                    PHP-Code:
                    <div>&nbsp;</div>
                    <
                    div>&nbsp;</div>
                    <
                    div>&nbsp;</div>
                    <
                    div>&nbsp;</div>
                    <
                    div align="center">
                    <
                    table BORDER="0" width "100%"><tr><td VALIGN=top WIDTH=61%>&nbsp;<FONT COLOR="#000080"></FONT></td>
                    <
                    td VALIGN=top WIDTH=39%><br>
                    <
                    br>
                    Herr<br>
                    Hans Muster<br>
                    Musterstrassebr>
                    3000 Mustern<br>
                    <
                    br>
                    <
                    br>
                    <
                    br>
                    </
                    td>
                    </
                    tr>
                    <
                    tr><td VALIGN=top WIDTH=61%>&nbsp;<FONT COLOR="#000080"></FONT></td>
                    <
                    td VALIGN=top WIDTH=39%>Mustern1. Januar 2006</td>
                    </
                    tr>
                    </
                    table></div>
                    <
                    div>&nbsp;</div>
                    <
                    div>&nbsp;</div>
                    <
                    div>&nbsp;</div>
                    <
                    div><b><FONT SIZE=4>Offerte</FONT></b><b><FONT SIZE=4> </FONT></b><b><FONT SIZE=3>Nr12345</FONT></b></div>
                    <
                    div>&nbsp;</div>
                    <
                    div>TextTextTextTextTextTextTextTextTextTextTextText</div>
                    <
                    div>&nbsp;</div>
                    <
                    div>&nbsp;</div>
                    <
                    div align="center"
                    Ich müsste quasi zuerst eben die Strukturen
                    PHP-Code:
                    <tr>
                    <
                    td>Anzahl</td>
                    <
                    td>Art.Nr.</td>
                    <
                    td>Text</td>
                    <
                    td>Preis</td>
                    <
                    td>Betrag</td>
                    </
                    tr
                    Edit: Ich müsste quasi nur schauen, wo fängt ein <tr> an, sind 5 mal <td %>%</td> dazwischen und hört es mit einem </tr> auf? Falls ja, speichern, sonst verwerfen.

                    Edit2: Ich habe mich nun mal drangesetzt und versucht, das Pattern hinzubekommen, doch irgendwie will mir dies nicht gelingen, wahrscheinlich auch weil ich noch keinerlei Erfahrung mit patterns habe
                    Ich habe folgenden Ansatz:

                    PHP-Code:
                    $getHW file_get_contents'off1.html' );

                    preg_match_all"°<tr>((<td(.*?)>(.*?)</td>){5})</tr>°i"$getHW$result );

                    print_r$result ); 
                    Ich scheine allerdings etwas mit <tr> falsch zu machen, denn wenn ich z.B.:
                    PHP-Code:
                    preg_match_all"°<td(.*?]>(.*?)</td>°i"$getHW$result ); 
                    eingebe, geht das problemlos, sprich ich kriege alles, was zwischen <td*> und </td> steht ausgegeben.
                    Wenn ich allerdings
                    PHP-Code:
                    preg_match_all"°<tr>(.*?)</tr>°i"$getHW$result ); 
                    nehme, kriege ich keine Ausgabe. Wieso dies? Er sollte mir doch alles wo zwischen einem <tr></tr> steht ausgeben oder?
                    Zu meine eigentlichen Ansatz: Ist dies so korrekt? Quasi, gebe alles aus, wo 5 mal <td*>*</td> zwischen <tr> und </tr> vorkommt?

                    Vielen Dank und Gruss
                    Zuletzt geändert von OnTheRun; 09.03.2006, 09:16.

                    Kommentar


                    • #11
                      Hallo allerseits,
                      nach einigem Knobeln scheine ich eine funktionierende Lösung gefunden zu haben. Für alle die es interessiert, hier ist sie :
                      PHP-Code:
                      /**
                      * @function     Adds hardware to the given ticket
                      *
                      * @param        $ticket_id    ID of the ticket, where the hardware belongs to
                      *                $file        Pointer to the file from epos
                      *
                      * @return        0            Adding hardware not successful
                      *                1            Hardware successfully added
                      **/
                      function add$ticket_id$file )
                      {    
                          
                      $getHW file_get_contentsaddslashes$file ) );
                              
                          if( 
                      preg_match_all"°<td[^>]*>(.*)</td>
                      <td[^>]*>(.*)</td>
                      <td[^>]*>(.*)<br>
                      (.*)</td>
                      <td[^>]*>(.*)</td>
                      <td[^>]*>(.*)</td>°i"
                      $getHW$res_main ) != FALSE )
                          {
                              for( 
                      $i 1$i sizeof$res_main ) - 1$i++ )
                              {
                                  
                      $res_hw[] =  str_replace"'"""strip_tags$res_main[$i][0] ) );
                              }
                              
                              
                      $sqlAddHWT =     "INSERT INTO hardware
                                              VALUES( '', '"
                      .$res_hw[0]."', '".$res_hw[1]."', 
                                              '"
                      .$res_hw[2].$res_hw[3]."', '".$res_hw[4]."', '0' )";
                              
                      $addHWT = new Query$sqlAddHWT );
                              if( 
                      $addHWT->error() )
                              {
                                  echo 
                      $addHWT->getError(); exit();
                              }
                              
                      //$addHWT->free();
                              
                      $hw_id mysql_insert_id();
                              
                              
                              
                      $sqlHWT =     "INSERT INTO hardware_ticket
                                          VALUES( '
                      $hw_id', '$ticket_id' )";
                              
                      $HWT = new Query$sqlHWT );
                              if( 
                      $HWT->error() )
                              {
                                  echo 
                      $HWT->getError(); exit();
                              }
                              
                      //$HWT->free();
                          
                      }
                          
                          if( 
                      preg_match_all"°<td[^>]*>(.*)</td>
                      <td[^>]*>(.*)</td>
                      <td[^>]*>(.*)</td>
                      <td[^>]*>(.*)</td>
                      <td[^>]*>(.*)</td>°i"
                      $getHW$result ) != FALSE )
                          {
                              for( 
                      $i 1$i sizeof$result[0] ); $i++ )
                              {
                                  
                      $res[] = explode"
                      "
                      strip_tags$result[0][$i] ) );
                              }
                          
                              for( 
                      $i 0$i sizeof$res ); $i++ )
                              {
                                  for( 
                      $j 0$j sizeof$res[$i] ); $j++ )
                                  {
                                      if( 
                      $res[$i][$j] != '&nbsp;' )
                                          
                      $res2[$i][$j] = str_replace"'"""$res[$i][$j] );
                                  }
                              }
                          
                              for( 
                      $i 0$i sizeof$res2 ); $i++ )
                              {
                                  
                      $sqlAddHWT =     "INSERT INTO hardware
                                                  VALUES( '', '"
                      .$res2[$i][0]."', '".$res2[$i][1]."',
                                                  '"
                      .$res2[$i][2]."', '".$res2[$i][4]."', '0')";
                                  
                      $addHWT = new Query$sqlAddHWT );
                                  if( 
                      $addHWT->error() )
                                  {
                                      echo 
                      $addHWT->getError(); exit();
                                  }
                                  
                      $hw_id mysql_insert_id();
                                  
                      //$addHWT->free();
                                  
                                  
                      $sqlHWT =     "INSERT INTO hardware_ticket 
                                              VALUES( '
                      $hw_id', '$ticket_id' )";
                                  
                      $HWT = new Query$sqlHWT );
                                  if( 
                      $HWT->error() )
                                  {
                                      echo 
                      $HWT->getError(); exit();
                                  }
                                  
                      //$HWT->free();
                              
                      }
                          }
                          
                          return 
                      1;

                      Gruss und schönen Abend
                      Zuletzt geändert von OnTheRun; 09.03.2006, 21:29.

                      Kommentar


                      • #12
                        Sehr vorbildlich. Wäre cool, wenn du die beiden SQL-Statements noch gemäß den Regeln umbrichst.

                        Kommentar


                        • #13
                          Nur mal so zur Diskussion:

                          Was spricht dagegen die HTML-Datei druch nen XML Parser zu jagen und sich dann Anhand der Struktur das Ergebniss rauszufischen?

                          Kommentar


                          • #14
                            allem anschein nach die tatsache, dass es sich hierbei um schäbiges html 4 handelt, das die wohlgeformtheit eines xml-doluments in frage stellt.

                            Kommentar


                            • #15
                              Ok, das ist ein Grund

                              Kommentar

                              Lädt...
                              X