Regex - JS Script entfernen

**AmicaNoctis** · 17-06-2010, 21:00

Hallo,

da das dazwischen doch etwas lang ist, vermute ich einfach, dass da ein internes Limit überschritten wird.

Ich würde es mal über DOM versuchen.

Gruß,

Amica

**Kropff** · 17-06-2010, 21:03

das hier funktioniert:

PHP Code:


<?php

  $str = '<script type="text/javascript">

          <! CDATA  */window.BF_BUILD="Mon Jun 14 11:03:55 2010";

if(!window.LOADED){window.BF_BEFORE=new Date().getTime();

 

 * jQuery JavaScript Library v1.3.2

 * http: jquery.com/

 *

 * Copyright (c) 2009 John Resig

 * Dual licensed under the MIT and GPL licenses.

 * http: docs.jquery.com/License

 *

 * Date: 2009-02-19 17:34:21 -0500 (Thu, 19 Feb 2009)

 * Revision: 6246

 */

(function(){var q=this,j,E=q.jQuery,u=q.$,t=q.jQuery=q.$=function(K,L){return new ......



        })()    > */

        </script>';

  $str = preg_replace('/<script[^>]*>.*?<\/script>/msi', '', $str);

  print_r($str);

?>

Kannst du auch mit

PHP Code:


$str = preg_match_all('/<script[^>]*>.*?<\/script>/msi', $str , $hit);

print_r($hit);

machen. Tipp. Quelltext ansehen! Der JavaScript-Code wird im Browser nicht angezeigt.

Peter

**JR-EWING** · 17-06-2010, 22:28

hm es scheint wirklich irgendwo ein Limit Problem zu sein.
Hab gerade oben die Snippets ausprobiert und bekomme das gleich Ergebnis. Wenn ich den String kürze klappt es

hm will das ungern mit DOM lösen - da müsste ich die ganze Klasse umschreiben

**AmicaNoctis** · 17-06-2010, 22:32

Originally posted by JR-EWING View Post

da müsste ich die ganze Klasse umschreiben

So schlimm kann das doch nicht sein, ca. 10 Zeilen. Wenn du es nicht machen willst, ist es auf jeden Fall schwierig, dir weiterzuhelfen.

**onemorenerd** · 18-06-2010, 07:54

Auch wenn es dieses ominöse Limit nicht gäbe, wäre dein Regex gefährlich ungenau. Im zu entfernenden JS-Code könnte nämlich </script> z.B. als String oder in einem Kommentar vorkommen. Deswegen kannst du nicht ungreedy suchen. Greedy geht auch nicht, weil dann alles vom ersten bis zum letzten script-Tag entfernt werden würde, inklusive HTML dazwischen. Folglich müsstest du ungreedy suchen, aber dafür sorgen, dass "</script>" nur als Tag gematcht wird, aber nicht als String oder Kommentar in JS. Das ist ziemlich komplex. DOM ist dagegen deutlich einfacher.

**JR-EWING** · 18-06-2010, 11:42

Hab es jetzt mal mit DOM versucht.

PHP Code:


 $doc = new DOMDocument();

 $doc->loadHTML($result);

 $scripts = $doc->getElementsByTagName('script');

 print_r($scripts);

das spuckt mir ein Haufen Fehler aus bei LoadHTML.

htmlParseEntityRef: expecting ';'

Tags mit Script werden anscheinend garnicht gefunden.

**AmicaNoctis** · 18-06-2010, 12:09

Originally posted by JR-EWING View Post

das spuckt mir ein Haufen Fehler aus bei LoadHTML.

PHP Code:


    // ...

    libxml_use_internal_errors(true);

    $doc->loadHTML($result);

    print_r(libxml_get_errors()); // nur, falls die dich interessieren

    // ...

Gruß,

Amica

**onemorenerd** · 18-06-2010, 12:43

Wenn dein HTML-Code nicht valide ist, kannst du dennoch mit getElementsByTagName() filtern. Allerdings kannst du die daraus resultierende DOMNodeList nicht einfach mit print_r() oder var_dump() ausgeben. DOMNodeList ist nämlich nur ein Container, ein PHP-Objekt ähnlich einem Handle für ein MySQL-Resultset. Das kannst du auch nicht print_r'n - da steht dann nur "Resource #1".

So wirds was:

PHP Code:


$scripts = $doc->getElementsByTagName('script');
for ($i = 0; $i < $scripts->length; $i++) {
  print $scripts->item($i)->nodeName . '=' . $scripts->item($i)->nodeValue . "\n";
}

Dabei wirkt DOMNodeList::item() ähnlich wie mysql_fetch_object() - es lädt den nächsten Eintrag der Ergebnisliste (lässt sich den von libxml geben).

Eventuell kannst du auch mit forach über DOMNodeList iterieren. Hab ich grad nicht im Kopf, musst du ausprobieren.

**AmicaNoctis** · 18-06-2010, 12:46

Warum so umständlich?

PHP Code:


foreach ($doc->getElementsByTagName('script') as $elem) {
    // mach was mit $elem, z. B.
    print $elem->nodeName . '=' . $elem->nodeValue . "\n";
}

**JR-EWING** · 18-06-2010, 13:27

Vielen Lieben DANK - versuch ich gleich mal

**JR-EWING** · 18-06-2010, 15:59

irgendwie steh ich noch auf dem Schlauch .....

PHP Code:


$doc = new DOMDocument();

$doc->loadHTML($result);



$scripts = $doc->getElementsByTagName('script');

for ($i = 0; $i < $scripts->length; $i++) {

  print $scripts->item($i)->nodeName . '=' . $scripts->item($i)->nodeValue . "\n";

  $old = $doc->removeChild($scripts->item($i));

}  



echo $doc->saveHTML();

kreig ich jetzt folgenden Fehler:

HTML Code:

<b>Fatal error</b>:  Uncaught exception 'DOMException' with message 'Not Found Error' in /var/www/clients/client4/web9/web/density.php:65
Stack trace:
#0 /var/www/clients/client4/web9/web/density.php(65): DOMNode-&gt;removeChild(Object(DOMElement))

Das hab ich aus dem Manual - eigentlich mach ich das gleiche :-(

PHP Code:




// we retrieve the chapter and remove it from the book

$chapter = $book->getElementsByTagName('chapter')->item(0);

$oldchapter = $book->removeChild($chapter);

**AmicaNoctis** · 18-06-2010, 17:19

removeChild kann nur für unmittelbare Kindknoten (daher der Name) benutzt werden. Damit du das script-Element also entfernen kannst, musst du dir dessen Elternelement holen:

PHP Code:


foreach ($doc->getElementsByTagName('script') as $elem) {

    $elem->parentNode->removeChild($elem);

}

**JR-EWING** · 18-06-2010, 18:23

Super Danke - jetzt hab ichs hingekriegt. Vielen Dank an alle Helfer - hab ich viel davon gelernt, wenn auch noch nicht kapiert. Aber mit DOM Parsen macht wohl mehr Sinn und wohl auch besser als Regex ;-)

Regex - JS Script entfernen