hi
ich bin da gerade ein kleines script am verbessern.
auf jeden fall habe ich mom. 4 regexe, welche jeweils die URL von einer seite auflisten.
//links auslesen
preg_match_all("|href=\"(.*)\"|Ui", $contents, $temp1);
preg_match_all("|href='(.*)'|Ui", $contents, $temp2);
preg_match_all("|href= \"(.*)\"|Ui", $contents, $temp3);
preg_match_all("|href= '(.*)'|Ui", $contents, $temp4);
$arrayoflinks=array_merge($temp1[1],$temp2[1],$temp3[1],$temp4[1]);
also, klar, das könnte man evt. auch alles in einem nehmen, aber dass ist nicht der sinn, da ich nachher auch noch die informationen brauch, wie er angegeben worden sit.
also jetzt findet er diese links:
href="test.htm"
href='test.htm'
href= "test.htm"
href= 'test.htm'
ich brauche jetz aber noch den, der das hier findet:
href=test.htm
also ihne '/" das problem ist, das wenn ich die '/" im regex einfach weglasse, das er dann alle doppelt findet.
also brauche ich im regex einen ohne-'/"
wie geht das??
also ich habe mal irgendwas gefunden, dass man mit der negativer ¨lookhead assortion (?! irgendwas ausschliessen kann.
aber irgendwie bin ich für die regexe noch zu dumm.
oder die zu komplex.
naja, auf jeden fall wäre es super, wenn mir jemand den regex dazu geben könnte.
ich bin da gerade ein kleines script am verbessern.
auf jeden fall habe ich mom. 4 regexe, welche jeweils die URL von einer seite auflisten.
//links auslesen
preg_match_all("|href=\"(.*)\"|Ui", $contents, $temp1);
preg_match_all("|href='(.*)'|Ui", $contents, $temp2);
preg_match_all("|href= \"(.*)\"|Ui", $contents, $temp3);
preg_match_all("|href= '(.*)'|Ui", $contents, $temp4);
$arrayoflinks=array_merge($temp1[1],$temp2[1],$temp3[1],$temp4[1]);
also, klar, das könnte man evt. auch alles in einem nehmen, aber dass ist nicht der sinn, da ich nachher auch noch die informationen brauch, wie er angegeben worden sit.
also jetzt findet er diese links:
href="test.htm"
href='test.htm'
href= "test.htm"
href= 'test.htm'
ich brauche jetz aber noch den, der das hier findet:
href=test.htm
also ihne '/" das problem ist, das wenn ich die '/" im regex einfach weglasse, das er dann alle doppelt findet.
also brauche ich im regex einen ohne-'/"
wie geht das??
also ich habe mal irgendwas gefunden, dass man mit der negativer ¨lookhead assortion (?! irgendwas ausschliessen kann.
aber irgendwie bin ich für die regexe noch zu dumm.
oder die zu komplex.
naja, auf jeden fall wäre es super, wenn mir jemand den regex dazu geben könnte.
Kommentar