Möchte bestimmte Wort-Gruppen zählen/speichern

Einklappen
X
 
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

  • Möchte bestimmte Wort-Gruppen zählen/speichern

    Hallo zusammen,

    stehe vor einem (wahrscheinlich kleinen) Problem, und komme einfach nicht weiter.

    Habe einen ganzen haufen HTML-Seiten, in denen z.B. folgende Tags vorkommen:

    Code:
    </a>INTRODUCTION</div><div class="section-content">
    ...
    </a>MAINPART</div><div class="section-content">
    ...
    </a>CONCLUSION</div><div class="section-content">
    Wie man sieht, unterscheiden sich die "Introducation"-Strings immer nur ein bischen voneinander.

    Ich bin auf der Suche nach der "best practice", wie man (z.B. per RegExp) eine Funktion über die HTML-Code laufen lässt und dann ein Array ausgespuckt wird, in dem steht:

    [0] => INTRODUCTION
    [1] => MAINPART
    [2] => CONCLUSION

    Das ist eigentlich ja TOTAL easy, habe hierfür auch schon zwei Lösungen, die funktionieren, AAAAABER: wie mache ich das ganze, wenn ich vorher NICHT weiß, wie die "Sections" genau heißen? Also es könnte z.B. sein, dass INTRODUCTION auch mal "1. Introduction" oder "Introduction" (oder auch ganz anders!) heißen kann. Also nicht "hart programmiert", sondern irgendwie dynamisch. Denke da an so etwas die "LIKE" bei SQL...?!

    Kann mir hier jemand aus seiner Erfahrung berichten? Ich komme hier einfach nicht auf einen grünen Zweig.

    Danke und Grüße,
    Chris

  • #2
    wenn es so einfach ist, wie du sagst, und du eine regexp lösung hast, dann wirst du erkannt haben das du code einliest, und nach bestimmten elementen suchst, die zwischen anderen elementen stehen.

    ich würde in diesem falle </a> und </div> als begrenzung nutzen. den regexp kannst du mit http://regexp-evaluator.de/evaluator/ rausbekommen.
    Webdesign und Webentwicklung - Plunix.de

    Kommentar


    • #3
      @Lennie: schonmal danke für deine Antwort. Aber leider sind </a> und </div> als Grenzen nicht eindeutig! Es braucht auf jeden Fall diesen "<div class="section-content">"-Anhang um eindeutig im Code zu werden.

      Mit "TOTAL EASY" meinte ich den Fall, in dem ich genau weiß, wie die gesuchten Wörter lauten, denn dann kann ich exploden. Eine Lösung mit RegExp habe ich bisher nicht erfolgreich basteln können.

      Was ich bisher habe ist folgender RegExp:

      http://regexp-evaluator.de/evaluator...cf0b/#ergebnis


      Wäre super, wenn mir jemand helfen könnte.

      Danke und Grüße,
      Chris

      Kommentar


      • #4
        Wie wär's damit ?
        Gutes Tutorial | PHP Manual | MySql Manual | PHP FAQ | Apache | Suchfunktion für eigene Seiten

        [color=red]"An error does not become truth by reason of multiplied propagation, nor does truth become error because nobody sees it."[/color]
        Mohandas Karamchand Gandhi (Mahatma Gandhi) (Source)

        Kommentar


        • #5
          @Jahlives: vielen, lieben Dank!! Du rockst!! Genau das habe ich gesucht. Halleluja!

          Gruß,
          Chris

          Kommentar

          Lädt...
          X