Zitat von newbie1955
Beitrag anzeigen
Meiner augenblicklichen Meinung nach müsste bereits $data gefiltert werden, nur wie am besten? Bei der Verwendung von strip_tags() würde wohl für DOM nichts mehr übrig bleiben. Was da ankommt, dass scheint nun einmal kein valides HTML zu sein. Außerdem kannst Du Dich nicht auf die Quellen verlassen. So sollte es zumindest JS ausfiltern:
PHP-Code:
$data = file_get_contents('http://www.hurriyetdailynews.com/');
$data = preg_replace("#\s{2,}#", "", $data);
$data = preg_replace("#<script(.+?)</script>#i", "", $data);
$doc = new DOMDocument();
$doc->loadHTML($data);
Kommentar