Daten abgrasen

Einklappen
X
 
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

  • Daten abgrasen

    Hi allesamt,

    lange nicht mehr hier was gepostet, weil ich eigentlich in den Jahren genug aus dem Forum hier gelernt habe, so dass ich die meisten Probleme inzwischen selber lösen kann. Jetzt habe ich aber mal eine Frage, die sonst nicht viel zu tun hat mit dem Bereich, mit dem ich mich sonst so beschäftige.

    Und zwar wollte ich von einer bestimmten Website Daten abgrasen.

    Sagen wir mal der Link sieht folgendermaßen aus:

    www.example.com/script.php?seite=1

    es gibt halt auf dieser Seite ganz viele Daten, die ich gerne hätte, und die ich durch Veränderung des Parameters "seite" alle durchlaufen kann. Also sowas wie

    for ($seite=0; $seite<1000000; $seite++) {
    Hol mir alle Daten die du anhand dieses Parameters erhälst:
    www.example.com/script.php?seite=$seite;
    und gib sie dann als String zurück
    }

    Nun die entscheidende Frage. Welche Funktion benötige ich genau, ich glaube irgendwas mit Curl. Ich brauche halt einfach den ganzen HTML-Code der Seite, aus dem ich dann mithilfe von "Regular Expressions" ganz bestimmte Teile rausfiltere.

    Ich hoffe mein Anliegen war verständlich genug.

    Danke schon mal im voraus
    Nube2021

  • #2
    Das wird Content-Klau und DOS-Attacke in einem oder wie?

    Kommentar


    • #3
      nene, keine DOS-Attacke, nur Content-Klau. Das sind halt ganz wichtige Links, die ich dadurch bekommen kann. Ich hoffe, dass das den Server von demjenigen nicht zu sehr belastet.

      Kommentar


      • #4
        frag den jenigen ob er dir die daten in nem vernünftigen format zur verfügung stellt. tut er das nicht, wirst du dich mit den vorhandenen Threads begnügen müssen.

        Aktiv wirst du HIER NICHT UNTERSTÜTZT!

        Kommentar


        • #5
          Ich verstehe nicht was daran nicht in Ordnung sein soll, das sind Daten, die für jedermann öffentlich zugänglich sind. Wie gesagt, ich hoffe nur, dass das nicht zuviel Serverlast produziert.

          Mit dem Format habe ich kein Problem, "preg_match_all" sei Dank.

          Kommentar


          • #6
            Wenn du das in Ordnung findest, gib uns doch mal die URL deiner Seite(n). Wir finden da sicherlich auch ein paar Daten, die wir gebrauchen können ...

            Kommentar


            • #7
              Ich hätte da nichts gegen, damit muss man nun leben als Website-Betreiber. Solange die Serverlast nicht zu groß wird.

              Kommentar


              • #8
                Ne, mit Heise, SpOn und Slashdot muß man leben. Kann man auch, weil da wirklich Besucher auf die eigene Site kommen und das will man ja im Grunde genommen. (Nur nicht alle auf einmal. *sic*) Echte Besucher sehen nämlich die ganze Seite, klicken evtl. auf Werbung und kommen bestenfalls später wieder. In einem Satz: Der Betreiber hat was davon.

                Von dem was du machst hat der Betreiber nichts. Und in den meisten Fällen sieht er nicht ein, dass er dein Geschäft mit seinen Daten unterstützen soll. Damit gräbt er sich schließlich selbst die User ab.

                Natürlich gibt es auch Betreiber, die ihre Daten gern herausgeben. Aber die bieten sie dann auch in einer anderen Form an; als statischen Download oder über einen Webservice. Das erspart ihrem Server nämlich die sinnlose Last, 1000000 Webseiten zusammensetzen zu müssen, nur weil Hans Wurst gerade mal wieder eine PI auf seiner Seite hat!
                Stell dir mal vor, du hast 100 Besucher gleichzeitig. Nach deinen Angaben erzeugst du dann 1000000*100 Requests an die Datenquelle. Das ist weit jenseits aller Hoffnung mein Freund ...

                Ich warte übrigens immernoch auf deine URL (inkl. Nachweis, dass es wirklich deine ist). Traust du dich wohl nicht?
                Zuletzt geändert von onemorenerd; 04.02.2007, 13:56.

                Kommentar


                • #9
                  schau dir doch einfach die curl funktionen an.

                  gruß
                  Robert

                  Kommentar


                  • #10
                    Original geschrieben von onemorenerd
                    Ne, mit Heise, SpOn und Slashdot muß man leben. Kann man auch, weil da wirklich Besucher auf die eigene Site kommen und das will man ja im Grunde genommen. (Nur nicht alle auf einmal. *sic*) Echte Besucher sehen nämlich die ganze Seite, klicken evtl. auf Werbung und kommen bestenfalls später wieder. In einem Satz: Der Betreiber hat was davon.

                    Von dem was du machst hat der Betreiber nichts. Und in den meisten Fällen sieht er nicht ein, dass er dein Geschäft mit seinen Daten unterstützen soll. Damit gräbt er sich schließlich selbst die User ab.

                    Natürlich gibt es auch Betreiber, die ihre Daten gern herausgeben. Aber die bieten sie dann auch in einer anderen Form an; als statischen Download oder über einen Webservice. Das erspart ihrem Server nämlich die sinnlose Last, 1000000 Webseiten zusammensetzen zu müssen, nur weil Hans Wurst gerade mal wieder eine PI auf seiner Seite hat!
                    Stell dir mal vor, du hast 100 Besucher gleichzeitig. Nach deinen Angaben erzeugst du dann 1000000*100 Requests an die Datenquelle. Das ist weit jenseits aller Hoffnung mein Freund ...

                    Ich warte übrigens immernoch auf deine URL (inkl. Nachweis, dass es wirklich deine ist). Traust du dich wohl nicht?
                    So doof, alles einzulesen um das gewünschte Teilfragment als eigenen Inhalt auszugeben, kann wohl niemand wirklich sein

                    Zumal das ja auch auf die eigenen Ressourcen geht.

                    Aber trotzdem. Konkreter darf die Anfrage hier schon gestellt werden. Hilfestellung zum Content-Klau wird hier keiner gerne leisten.
                    [FONT="Helvetica"]twitter.com/unset[/FONT]

                    Shitstorm Podcast – Wöchentliches Auskotzen

                    Kommentar

                    Lädt...
                    X