Seiteninhalt einlesen

**derHund** · 29-01-2005, 12:26

Re: Seiteninhalt einlesen

Das Problem ist das der Anfangsteil sich nicht eindeutig zuroden läst.

häh?

Kennt jemand eine Möglichkeit URLs auszulesen, auch wenn nur der Schlussteil eindeutig zuzuordnen ist?

ja?

zeig mal bitte beispiel und gegenbeispiel. danke.

**G.P.** · 29-01-2005, 13:26

aber sicher

nehmen wir an in der liste stehen folgende urls

http://www.irgendwas.de
http://www.yourdomain.com
http://www.hierlang.de
http://www.test4.org

ich möchte jetzt z.B. alle Domains anzeigen die mit der Endung .de enden.
(in der datei stehen die Domains nicht so schön untereinandern sondern im Text)

MfG
GP

**derHund** · 29-01-2005, 13:37

dann such doch einfach nach urls, die auf .de enden ... wo liegt das problem?

**G.P.** · 29-01-2005, 14:06

das problem leigt da das ich nicht weiß wie

ich wollte es eigentlich pattern. aber damit geht es ja anscheinend nicht (oder nur schlecht)
Gibt es da noch einen anderen Befehl?

MfG
GP

**penizillin** · 29-01-2005, 14:11

ich erinnere mich waage an

PHP Code:


machJetzt($urlListe, 'sofort');

man kann es wunderbar mit regexp lösen. oder mit parse_url(), wenn man will. oder durch stupides explode() - such dir etwas aus.

**ghostgambler** · 29-01-2005, 17:11

Original geschrieben von G.P.
ich wollte es eigentlich pattern. aber damit geht es ja anscheinend nicht (oder nur schlecht)

Wie lautet dein Pattern und was funktioniert schlecht daran? Von meiner rein theoretischen Überlegung her grade, würde ich sagen, dass das wunderbar funktionieren müsste...

**G.P.** · 29-01-2005, 17:29

dachte ich auch, bis ich es gemacht habe

hier einfach mal der Code um z.B. einen com Domain auszulesen:

PHP Code:


preg_match_all("/(http:\\/\\/)(.*)(.com)/", $text, $treffer);



for ($i=0; $i< count($treffer[0]); $i++) {

  echo "http://".$treffer[2][$i].".com";

}

Jetzt ist das Problem, das ja alle Domains im Text mit http anfangen. Wenn es aber ein de domain ist hört er an der Stelle nicht auf sonder liest den Text bis zur nächsten Abbruchsequenz durch.

Hast du evtl. eine Idee?

MfG
GP

**penizillin** · 29-01-2005, 17:33

hört er an der Stelle nicht auf

hint: mit anderen worten - beachtet keine zeilenumbrüche?

**TobiaZ** · 29-01-2005, 17:34

unser tutorial gelesen?

**G.P.** · 29-01-2005, 17:37

@penizillin
es ist beabsichtig das Zeilenumbrüche nicht beachtet werden, da aufgrund der Textformatierung die Links teilweise auch umbrüche haben
(die Zeilenumbrüche werden deswgeen vom Code entfernt)

@TobiaZ
welches Tutorial genau?

MfG
GP

**TobiaZ** · 29-01-2005, 17:38

das einzige, welches wir zum thema regex auf dieser seite haben (Nr. 10)

Lösung ist das ? aber mehr sag ich net

**derHund** · 29-01-2005, 17:39

http://www.php-resource.de/tutorials/read/10/1/
U

**G.P.** · 29-01-2005, 18:05

danke für den link

@TobiaZ
ich habe es mir mal angeguckt, aber ich erkenne nicht wo das ? (oder einer der anderen Befehle) die Lösung sein kann.
Das Fragezeichen verhindert doch eigentlich nur das eine Zeichenkette sich wiederholt (wenn ich es richtig verstanden habe).
Wenn ich jetzt ein ? an den Quantifier anhänge, hält es zwar bei der nächsten ABbruchsequenz, aber wenn die aktuelle URL z.B. auf .de Endet liest er den kompletten Abschnitt dahinter auch mit.

Ich habe es schon damit probiert Alternative ABbruchsequenzen anzugeben, da es aber sehr viele Domainendungen gibt ist dies nicht gerade die Ideale Lösung.

Hast du vieleicht noch eine Idee?
Oder habe ich etwas falsch verstanden?

MfG
GP

**derHund** · 29-01-2005, 20:09

http://pcre.nophia.de/evaluate/99022...dex.php#output

unter der voraussetzung, daß die adresse mindestens durch leerzeichen getrennt sind ...

Seiteninhalt einlesen