Alle Links einer Seite ausgeben

Einklappen
X
 
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

  • Alle Links einer Seite ausgeben

    Hallo!

    Möchte gerne alle Links einer übergebenen Seite auslesen.
    Mein einziges Problem dabei ist:

    Wie kann ich die Links am besten nach "intern" und "extern" kategorisieren?
    Reicht es immer den jeweiligen Hostnamen zu checken oder was wäre hier der beste Weg?

    Danke schonmal für eure Hilfe

  • #2
    Was ist denn deine Definition von intern? Meine wäre: Der Link zeigt auf die selbe Domain, die diesen Link geliefert hat.
    Das umfasst alle Links mit der einen bestimmten Domain und solche ohne Domain (relative und absolute Links).
    Alles andere ist extern.

    Kommentar


    • #3
      Dein Skript könnte ungefähr so aussehen (aus dem stegreif und evtl. fehlerhaft):

      PHP-Code:

      // Daten holen (egal ob lokal oder http oder ftp)
      $content file_get_contents$addr );

      // URL Pattern
      $protocol "(?:[\d\w]+\://)";
      $domain "(?:[\w\d\.\-]+)";
      $file "(?:.*)";

      // finde: "    http://www.google.de/abc.do    "
      // umschlossen von Hochkommas (Leerraum)
      // ...<a href="     ...      ">...
      $pattern "#\"\w*($protocol?(?:$domain$file?)|(?:$file))\w*\"#";

      // hier reinschreiben
      $found = array( );

      // Abfrage starten
      preg_match_all$pattern$content$foundPREG_OFFSET_CAPTURE );

      // ausgeben
      print_r$found );

      // hier kann man nun jede gefundene Zeichenkette überprüfen
      // Auf http oder ftp oder file, ob es ein relativert pfad ist, etc. 
      (das pattern ist gartiert mit kleinen fehlern bestückt, wie immer halt :-D )

      gruß Philipp
      Find Parties?
      Partysuche

      Kommentar


      • #4
        Ich würde ja die DOM-Klassen zu rate ziehen und mit Methoden ala getElementsByTagName('a') arbeiten, die Rückgabe etwas ganauer untersuchen und auswerten.
        [FONT="Helvetica"]twitter.com/unset[/FONT]

        Shitstorm Podcast – Wöchentliches Auskotzen

        Kommentar

        Lädt...
        X