Seiteninhalt einlesen

Collapse
X
 
  • Filter
  • Time
  • Show
Clear All
new posts

  • Seiteninhalt einlesen

    Ich öffne eine Datei mit fopen und möchte bestimment Inhalt dieser Datei auf meiner Seite ausgeben.
    Normalerweise geht das ja mit preg_macth_all. Aber ich habe ein kleines Problem bei der Zuordnung.

    Das Problem ist das der Anfangsteil sich nicht eindeutig zuroden läst.
    Um ganz genau zu sein will ich aus einer Datei URLs mit bestimmten Inhalten auslesen. Aber die URLs fangen nun mal alle mit http:// an.

    Kennt jemand eine Möglichkeit URLs auszulesen, auch wenn nur der Schlussteil eindeutig zuzuordnen ist?

    MfG
    GP

  • #2
    Re: Seiteninhalt einlesen

    Das Problem ist das der Anfangsteil sich nicht eindeutig zuroden läst.
    häh?
    Kennt jemand eine Möglichkeit URLs auszulesen, auch wenn nur der Schlussteil eindeutig zuzuordnen ist?
    ja?

    zeig mal bitte beispiel und gegenbeispiel. danke.
    Die Zeit hat ihre Kinder längst gefressen

    Comment


    • #3
      aber sicher

      nehmen wir an in der liste stehen folgende urls

      http://www.irgendwas.de
      http://www.yourdomain.com
      http://www.hierlang.de
      http://www.test4.org

      ich möchte jetzt z.B. alle Domains anzeigen die mit der Endung .de enden.
      (in der datei stehen die Domains nicht so schön untereinandern sondern im Text)

      MfG
      GP

      Comment


      • #4
        dann such doch einfach nach urls, die auf .de enden ... wo liegt das problem?
        Die Zeit hat ihre Kinder längst gefressen

        Comment


        • #5
          das problem leigt da das ich nicht weiß wie

          ich wollte es eigentlich pattern. aber damit geht es ja anscheinend nicht (oder nur schlecht)
          Gibt es da noch einen anderen Befehl?

          MfG
          GP

          Comment


          • #6
            ich erinnere mich waage an
            PHP Code:
            machJetzt($urlListe'sofort'); 
            man kann es wunderbar mit regexp lösen. oder mit parse_url(), wenn man will. oder durch stupides explode() - such dir etwas aus.

            Comment


            • #7
              Original geschrieben von G.P.
              ich wollte es eigentlich pattern. aber damit geht es ja anscheinend nicht (oder nur schlecht)
              Wie lautet dein Pattern und was funktioniert schlecht daran? Von meiner rein theoretischen Überlegung her grade, würde ich sagen, dass das wunderbar funktionieren müsste...

              Ein netter Guide zum übersichtlichen Schreiben von PHP/MySQL-Code!

              bei Klammersetzung bevorzuge ich jedoch die JavaCoding-Standards
              Wie man Fragen richtig stellt

              Comment


              • #8
                dachte ich auch, bis ich es gemacht habe

                hier einfach mal der Code um z.B. einen com Domain auszulesen:

                PHP Code:
                preg_match_all("/(http:\\/\\/)(.*)(.com)/"$text$treffer);

                for (
                $i=0$icount($treffer[0]); $i++) {
                  echo 
                "http://".$treffer[2][$i].".com";

                Jetzt ist das Problem, das ja alle Domains im Text mit http anfangen. Wenn es aber ein de domain ist hört er an der Stelle nicht auf sonder liest den Text bis zur nächsten Abbruchsequenz durch.

                Hast du evtl. eine Idee?

                MfG
                GP

                Comment


                • #9
                  hört er an der Stelle nicht auf
                  hint: mit anderen worten - beachtet keine zeilenumbrüche?

                  Comment


                  • #10
                    unser tutorial gelesen?

                    Comment


                    • #11
                      @penizillin
                      es ist beabsichtig das Zeilenumbrüche nicht beachtet werden, da aufgrund der Textformatierung die Links teilweise auch umbrüche haben
                      (die Zeilenumbrüche werden deswgeen vom Code entfernt)

                      @TobiaZ
                      welches Tutorial genau?

                      MfG
                      GP

                      Comment


                      • #12
                        das einzige, welches wir zum thema regex auf dieser seite haben (Nr. 10)

                        Lösung ist das ? aber mehr sag ich net

                        Comment


                        • #13
                          http://www.php-resource.de/tutorials/read/10/1/
                          U
                          Die Zeit hat ihre Kinder längst gefressen

                          Comment


                          • #14
                            danke für den link

                            @TobiaZ
                            ich habe es mir mal angeguckt, aber ich erkenne nicht wo das ? (oder einer der anderen Befehle) die Lösung sein kann.
                            Das Fragezeichen verhindert doch eigentlich nur das eine Zeichenkette sich wiederholt (wenn ich es richtig verstanden habe).
                            Wenn ich jetzt ein ? an den Quantifier anhänge, hält es zwar bei der nächsten ABbruchsequenz, aber wenn die aktuelle URL z.B. auf .de Endet liest er den kompletten Abschnitt dahinter auch mit.

                            Ich habe es schon damit probiert Alternative ABbruchsequenzen anzugeben, da es aber sehr viele Domainendungen gibt ist dies nicht gerade die Ideale Lösung.

                            Hast du vieleicht noch eine Idee?
                            Oder habe ich etwas falsch verstanden?

                            MfG
                            GP

                            Comment


                            • #15
                              http://pcre.nophia.de/evaluate/99022...dex.php#output

                              unter der voraussetzung, daß die adresse mindestens durch leerzeichen getrennt sind ...
                              Die Zeit hat ihre Kinder längst gefressen

                              Comment

                              Working...
                              X