Crawler (wieder mal)

Einklappen
X
 
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

  • Crawler (wieder mal)

    Hallo Leute,

    Ich möchte gerne einen crawler entwickeln, welcher Daten von definierten Sites holt. und anschliessend diese auch schön präsentiert. So a la www.preisvergleich.de.

    Nur lieder hab ich total keine Ahnung wie ich das bewerkstelligen könnte.
    Die Daten könnte ich ja via fopen lesen, jedoch kann ich anschliessend diese nicht schön darstellen...

    Es gäbe zwei Möglichkeiten.
    1. Die Daten werden über Nacht geholt und anschliessend den Tag durch für die Suche bereitgestellt.

    2. Die Daten werden zur Laufzeit geholt und zwar anhand der Suchkriterien welche angegeben werden.


    Hat mir vielleicht jemand einen Denkansatz oder vielleicht Schnippsel oder weiterführende Themen.

    Besten Dank
    Greetz
    nico44
    Zuletzt geändert von nico44; 03.04.2008, 15:45.

  • #2
    Ich möchte gerne einen crawler entwickeln, welcher Daten von definierten Sites holt. und anschliessend diese auch schön präsentiert. So a la preisvergleich.de.
    Eigentlich schon der Falsche Ansatz, weil die in der Regel die Daten geliefert bekommen und nichts mehr crawlen müssen...

    Dein zweiter Ansatz ist wohl kaum handelbar. Zumindest nicht auf dauer. Du musst also die Daten vorhalten.

    *move* nach Brainstorming, weil hier nun wirklich kein PHP-Problem vorliegt.

    Kommentar


    • #3
      Ich möchte gerne einen crawler entwickeln, welcher Daten von definierten Sites holt. und anschliessend diese auch schön präsentiert. So a la preisvergleich.de.
      Dieser Ansatz wäre ein Haufen Arbeit - Du müßtest für jede zu crawlende Seite komplexe Regex-Anweisungen pflegen und aktualisieren, um immer die richtigen Daten auszulesen. Sobald eine Seite ihr Layout ändert, hast du einen kaputten Datenbestand und mußt deinen Parser anpassen. Stress ohne Ende... Meine Meinung: Entweder man kriegt die Seiten dazu, ihre Daten auswertbar zu liefern, oder man läßt es bleiben.

      Kommentar


      • #4
        Hallo zusammen,

        Besten Dank für die schnellen Antworten.

        Ich denke ihr habt ja auch schon ähnliche Projekte gehabt?! So ein Suchportal.

        Habt ihr denn die "Partner" immer dazu gebracht, euch die Daten zur Verfügung zu stellen?!?! Wäre natürlich wesentlich Kundenfreundlicher wenn man die Seiten crawlen könnte....

        Wie würdet ihr denn so ein Vorhaben lösen, dass das ganze möglichst generisch ist und dennoch recht kundenfreundlich bleibt??

        Besten Dank.
        Greetz
        nico44

        Kommentar


        • #5
          Was für einen Kundenbereich hast du denn? Bietest du einen Service, der auf alle möglichen Webseiten zugreifen kann oder erwarten die Kunden von dir diesen Service?
          Wenn die Kunden dich zum Beispiel dafür bezahlen, kannst du ja die Seite crawlen, dem Kunden muss dann aber klar sein, wie hoch der Aufwand ist oder bietet eine entsprechende Schnittstelle. Bei einem offenen Service, der beliebige Seiten parst, musst du gucken, wie generisch du diese Seiten parsen willst. Wonach suchst du denn in den Seiten? Bilder, Inhalte, Unterseiten?

          Kommentar


          • #6
            Hallo PHP-Desaster,

            Ich möchte gerne einen Service anbieten, welcher definierte Sites auf Angebote crawlet, hierbei brauche ich sowohl Text- wie auch Bild Daten.

            Meine Lösung sollte möglichst kundenfreundlich sein d.h. folgendes Szenario:

            1. definiere Site
            2. crawl diese
            3. speichere nötige Daten
            4. Endkunde sucht auf meinem Portal
            5. Endkunde erhält Treffer, mit wichtigsten Daten.
            6. Detail mit Link auf Site

            Weniger kundenfreundlich, jedoch die einfachere wäre wohl:

            1. definiere Site
            2. erhalte Daten via xml auf ftp
            3. speichere nötige Daten
            4. Endkunde sucht auf meinem Portal
            5. Endkunde erhält Treffer, mit wichtigsten Daten.
            6. Detail mit Link auf Site

            So wie ich das sehe, gemäss den anderen Posts, werde ich die zweite Variante verwenden. Oder hast du noch einen anderen Denkansatz?

            Besten Dank für die Unterstützung.
            Greetz
            nico44

            Kommentar


            • #7
              Schritt "2. crawl diese" ist dabei natürlich das schwierige, da du das - wie schon gesagt - je nach Seite anders machen musst. Einen komplett generischen Parser kannst du da nicht verwenden, da du ja einen Zusammenhang zwischen den Bildern und Beschreibungen haben musst, um einen Artikel zu identifizieren. Wenn die Seiten einem bestimmten Muster entsprechen, kannst du da was reißen, das ist aber je nach Kunde zu untersuchen!

              Kommentar

              Lädt...
              X