10 am häufigsten benutzten Wörter finden

Einklappen
X
 
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

  • 10 am häufigsten benutzten Wörter finden

    Hallo,

    ich bin auf der Suche nach einem kleinen php script welches eine URL aufruft und mir dann die 10 am häufigsten vorkommenden Wörter ausgibt (oder in ein Array oder DB übergibt). Von Vorteil wäre auch eine Beachtung einer blacklist mit Wörtern die das script nicht zählen soll.

    Das größte Problem hierbei ist das evtl. JavaScript-Passagen und Style-Definitionen im Quellcode nicht mit berücksichtigt werden sollen. (strip_tags() entfernt leider nur html-tags).

    Vielleicht habt ihr ja einen Ansatz oder für mich.

    Schon mal vielen Dank.

  • #2
    PHP-Code:
    $worte str_word_count($str,1);
    $count = array();
    foreach(
    $worte as $wert){
      if(!
    key_exists($wert,$count)){
        
    $count[$wert] = 1;
      }else{
        
    $count[$wert] += 1;
      }

    Dann den Array $count nach den Werten absteigend sortieren und die 10 ersten ziehen.
    (strip_tags() entfernt leider nur html-tags).
    woher diese Info ?
    Gruss

    tobi
    Gutes Tutorial | PHP Manual | MySql Manual | PHP FAQ | Apache | Suchfunktion für eigene Seiten

    [color=red]"An error does not become truth by reason of multiplied propagation, nor does truth become error because nobody sees it."[/color]
    Mohandas Karamchand Gandhi (Mahatma Gandhi) (Source)

    Kommentar


    • #3
      tach,

      erstmal danke.

      quote:
      (strip_tags() entfernt leider nur html-tags).


      woher diese Info ?
      hatte das problem vor kurzem. strip_tags() hat nicht mal xhtml-tags (z.B. <br /> entfernen können.

      Dann den Array $count nach den Werten absteigend sortieren und die 10 ersten ziehen.
      wenn ich $count sortieren lassen habe ich net viel davon, nur ein array welches mir absteigende zahlen ausgibt aber net die dazugehörigen wörter.,

      gruß

      Kommentar


      • #4
        wenn ich $count sortieren lassen habe ich net viel davon, nur ein array welches mir absteigende zahlen ausgibt aber net die dazugehörigen wörter.,
        Drum stehen die Wörter ja jeweils als Key im Array !$
        Btw hat du überhaupt verstanden was der Code macht ??
        Zuletzt geändert von jahlives; 09.08.2007, 17:58.
        Gutes Tutorial | PHP Manual | MySql Manual | PHP FAQ | Apache | Suchfunktion für eigene Seiten

        [color=red]"An error does not become truth by reason of multiplied propagation, nor does truth become error because nobody sees it."[/color]
        Mohandas Karamchand Gandhi (Mahatma Gandhi) (Source)

        Kommentar


        • #5
          asort

          Kommentar


          • #6
            Drum stehen die Wörter ja jeweils als Key im Array !
            vor dem sortieren geb ich dir recht, nach dem sortieren mit z.B. rsort($count) net mehr. warum auch immer.

            hast du nen plan wie man die css anweisungen entfernen kann? str_replace() evtl. ?

            gruß

            edit:

            ich sollte man arsort() nehmen. sorry war blind.

            Kommentar


            • #7
              hast du nen plan wie man die css anweisungen entfernen kann? str_replace() evtl. ?
              nur wenn du weißt, wie sieht heißt, bzw. geschrieben ist. ansonsten preg_replace.

              Kommentar


              • #8
                nur wenn du weißt, wie sieht heißt, bzw. geschrieben ist. ansonsten preg_replace.
                viele wege führen nach rom. einer der gründe warum ich mich in foren registriere ist die meinung anderer Leute die evtl. ein "bissl" mehr Erfahrung haben als ich.
                Wenn mir also jemand einen anderen besseren Weg aufzeigt bin ich gern bereit diese Erkenntnisse zu nutzen.

                danke

                Kommentar


                • #9
                  OffTopic:
                  war doch ganz sachlich geantwortet. wer wird denn da gleich rumzicken?

                  Kommentar


                  • #10
                    war doch ganz sachlich geantwortet. wer wird denn da gleich rumzicken?
                    sorry wenn das so rüber gekommen ist. sollte gar net zichig sein. hab wirklich nur mitteilen wollen das ich mich hauptsächlich zum Erfahrungsaustausch in Foren anmelde.

                    Was anderes:

                    bei dem von jahlives stamnmenden codeschnipsel kickt der mir alle umlaute raus. da hab ich aber nur wirklich keinen lösungsansatz.

                    Kommentar


                    • #11
                      abermals str_word_count

                      Beachten Sie bei der Verwendung dieser Funktion, dass "Wörter" als locale-abhängige Strings interpretiert werden, die nur die Buchstaben des Alphabets enthalten. Sie dürfen außerdem "'"- und "-"-Zeichen enthalten, jedoch nicht damit beginnen.
                      charlist
                      Eine Liste zusätzlicher Zeichen, die ebenfalls als 'Wort' betrachtet werden

                      Kommentar


                      • #12
                        Beachten Sie bei der Verwendung dieser Funktion, dass "Wörter" als locale-abhängige Strings interpretiert werden, die nur die Buchstaben des Alphabets enthalten. Sie dürfen außerdem "'"- und "-"-Zeichen enthalten, jedoch nicht damit beginnen.
                        ok, weder dort noch in meinem schlauen buch welches vor mir liegt steht drin das str_word_count() auch codierungen missachtet bzw. rauskickt. so schlau war ich vorher schon umlaute zu ersetzen.

                        PHP-Code:
                        &#228; für ä 
                        charlist
                        Eine Liste zusätzlicher Zeichen, die ebenfalls als 'Wort' betrachtet werden
                        leider net in meiner php-version (4.4.irgendwas). dauert auch noch ne weile bis redhat php 5.1 als stabil und sicher frei gibt. vorher kommt das net auf meinen webserver.

                        danke und gruß
                        Zuletzt geändert von WebDödel; 09.08.2007, 19:05.

                        Kommentar


                        • #13
                          ok, weder dort noch in meinem schlauen buch welches vor mir liegt steht drin das str_word_count() auch codierungen missachtet bzw. rauskickt.
                          Wenn man diese Kodierungen zu den "Buchstaben des Alphabets" zäht, hast du recht.

                          Kommentar


                          • #14
                            Wenn man diese Kodierungen zu den "Buchstaben des Alphabets" zäht, hast du recht.
                            Davon steht leider nix in meinem Büchlein (trotz der 1000 seiten). Und ständig das manual zu lesen wäre zu einfach .

                            Ich gelobe Besserung.

                            Gruß

                            Kommentar

                            Lädt...
                            X