Links und Text aus Website auslesen

Einklappen
X
 
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

  • Links und Text aus Website auslesen

    Hi,

    ich will mal ein bisschen mit nem Webcrawler experimentieren,
    dieser soll Links von externen Websites auslesen können und auch den Text davon in einer Datenbank speichern.
    Ich bräuchte also eine Funktion für den Text und für Links.

    gru?

    Jayjay

  • #2
    Dann fang mal an.

    Stichwort: RegExp

    Wenn du ein konkretes Problem bei der Implementierung hast kannst du gerne nochmal fragen.

    Kommentar


    • #3
      Ich bräuchte also eine Funktion für den Text und für Links.
      Reguläre Ausdrücke sind genau dazu da. Für mehr Infos gibt's das Manual. Und bei einer konkreten Frage darfst du gerne wiederkommen
      Gutes Tutorial | PHP Manual | MySql Manual | PHP FAQ | Apache | Suchfunktion für eigene Seiten

      [color=red]"An error does not become truth by reason of multiplied propagation, nor does truth become error because nobody sees it."[/color]
      Mohandas Karamchand Gandhi (Mahatma Gandhi) (Source)

      Kommentar


      • #4
        OffTopic:
        High 5

        Kommentar


        • #5
          Ok erst mal danke,

          also mit RegExp?

          Kommentar


          • #6
            Nee, mit Sauerkraut.

            Wenn 2 Leute RegExp schreiben, meinen sie das auch so

            Kommentar


            • #7
              also mit RegExp?
              Ja. Denn alles andere würde ein ziemliches Gefummel werden
              Gutes Tutorial | PHP Manual | MySql Manual | PHP FAQ | Apache | Suchfunktion für eigene Seiten

              [color=red]"An error does not become truth by reason of multiplied propagation, nor does truth become error because nobody sees it."[/color]
              Mohandas Karamchand Gandhi (Mahatma Gandhi) (Source)

              Kommentar


              • #8
                Ok erst mal danke,
                da hab ich jetzt schon gute Seiten gefunden,
                aber soweit ich das überblicken konnte kann amn damit z.b. einen Text durchsuchen, ich will ja aber den ganzen text speichern.

                Kommentar


                • #9
                  Nee, mit Sauerkraut.
                  OffTopic:

                  Gerade im Manual gesehen, dass es sauerkraut(float menge, int dauer, double gasmenge)- Funktion in PHP 6 geben wird

                  Gutes Tutorial | PHP Manual | MySql Manual | PHP FAQ | Apache | Suchfunktion für eigene Seiten

                  [color=red]"An error does not become truth by reason of multiplied propagation, nor does truth become error because nobody sees it."[/color]
                  Mohandas Karamchand Gandhi (Mahatma Gandhi) (Source)

                  Kommentar


                  • #10
                    http://de2.php.net/manual/de/functio...-match-all.php <- Parameter "matches" wäre für dich interessant.

                    Hier mal zum ausprobieren: http://regexp-evaluator.de/evaluator/

                    Kommentar


                    • #11
                      aber soweit ich das überblicken konnte kann amn damit z.b. einen Text durchsuchen, ich will ja aber den ganzen text speichern.
                      Man kann damit durchsuchen, ausschneiden, ersetzen. Also matched du erst mit einem RegExp die URL und den Text und speicherst diese beiden Vars in eine Textdatei oder Datenbank.
                      Gutes Tutorial | PHP Manual | MySql Manual | PHP FAQ | Apache | Suchfunktion für eigene Seiten

                      [color=red]"An error does not become truth by reason of multiplied propagation, nor does truth become error because nobody sees it."[/color]
                      Mohandas Karamchand Gandhi (Mahatma Gandhi) (Source)

                      Kommentar


                      • #12
                        Original geschrieben von jahlives
                        OffTopic:

                        Gerade im Manual gesehen, dass es sauerkraut(float menge, int dauer, double gasmenge)- Funktion in PHP 6 geben wird

                        Das geht aber nur wenn Sauerkraut eine Class ist und das Interface Kartoffeln und Bratwurst implementiert hat.

                        Kommentar


                        • #13
                          regex sind frickelei.

                          DOM XML

                          Kommentar


                          • #14
                            regex sind frickelei.

                            DOM XML
                            Sehe ich genau so. Das Problem ist allerdings, dass du nicht sicher sein kannst, dass die Eingabedaten gültiges XML/HTML sind. Da musst du dann mit einem entsprechenden XmlParser ansetzen, mit der DOM-Extension wirst du da wohl scheitern.

                            Kommentar


                            • #15
                              Original geschrieben von PHP-Desaster
                              Das Problem ist allerdings, dass du nicht sicher sein kannst, dass die Eingabedaten gültiges XML/HTML sind.
                              stimmt schon. nur soll es ja ein webspider werden, da kann oder sollte man dann schon von gültigem html ausgehen. ungültige seiten werden dann halt nicht erfasst.

                              Kommentar

                              Lädt...
                              X