htmlspecialchars
(PHP 4, PHP 5, PHP 7, PHP 8)
htmlspecialchars — Wandelt Sonderzeichen in HTML-Entities um
Beschreibung
string
$string
,int
$flags
= ENT_QUOTES | ENT_SUBSTITUTE | ENT_HTML401,?string
$encoding
= null
,bool
$double_encode
= true
): string
Bestimmte Zeichen haben in HTML eine spezielle Bedeutung und sollten in HTML-Entities dargestellt werden, um ihre Bedeutung zu behalten. Diese Funktion gibt eine Zeichenkette zurück, in der diese Umwandlungen durchgeführt wurden. Ist es erforderlich, dass alle Teilzeichenketten der Eingabe, die zugeordnete benannte Entities haben, übersetzt werden, sollte stattdessen htmlentities() verwendet werden.
Wenn die Eingabezeichenkette, die dieser Funktion übergeben wird, und das endgültige Dokument den gleichen Zeichensatz haben, ist diese Funktion ausreichend, um Eingaben für die meisten Kontexte eines HTML-Dokuments vorzubereiten. Wenn allerdings die Eingabe Zeichen darstellen kann, die nicht im Zeichensatz des endgültigen Dokuments kodiert sind, und Sie diese Zeichen beibehalten wollen (als numerische oder benannte Entities), kann sowohl diese Funktion als auch htmlentities() (die nur Teilzeichenketten, die benannte Entity-Entsprechungen haben, kodiert) ungenügend sein. Stattdessen muss u. U. mb_encode_numericentity() verwendet werden.
Zeichen | Ersetzung |
---|---|
& (Kaufmanns-Und) |
& |
" (doppeltes Anführungszeichen) |
" , falls ENT_NOQUOTES
nicht gesetzt ist
|
' (einfaches Anführungszeichen) |
' (für ENT_HTML401 )
oder ' (für
ENT_XML1 , ENT_XHTML oder
ENT_HTML5 ), aber nur wenn
ENT_QUOTES gesetzt ist
|
< (kleiner als) |
< |
> (größer als) |
> |
Parameter-Liste
-
string
-
Die zu umzuwandelnde Zeichenkette.
-
flags
-
Eine Bitmaske von einem oder mehreren der folgenden Flags, die die Behandlung von Anführungszeichen, ungültigen Zeichenketten und den genutzten Dokumententyp festlegen. Der Standardwert ist
ENT_QUOTES | ENT_SUBSTITUTE | ENT_HTML401
.Verfügbare flags
-KonstantenName der Konstante Beschreibung ENT_COMPAT
Wandelt nur doppelte Anführungszeichen um und lässt einfache Anführungszeichen unverändert. ENT_QUOTES
Wandelt sowohl doppelte als auch einfache Anführungszeichen um. ENT_NOQUOTES
Lässt doppelte und einfache Anführungszeichen unverändert. ENT_IGNORE
Verwirft ungültige Code-Unit-Sequenzen, anstatt eine leere Zeichenkette zurückzugeben. Die Nutzung dieser Option ist nicht empfehlenswert, da sie » Auswirkungen auf die Sicherheit haben kann. ENT_SUBSTITUTE
Ersetzt ungültige Code-Unit-Sequenzen mit dem Unicode-Ersatzzeichen U+FFFD (UTF-8) oder � (andernfalls), anstatt eine leere Zeichenkette zurückzugeben. ENT_DISALLOWED
Ersetzt Codepoints, welche in dem angegebenen Dokumenttyp ungültig sind, mit dem Unicode-Ersatzzeichen U+FFFD (UTF-8) oder � (andernfalls), anstatt sie zu belassen. Das kann zum Beispiel nützlich sein, um die Wohlgeformtheit von XML-Dokumenten mit eingebetteten externen Inhalten sicherzustellen. ENT_HTML401
Behandle Code als HTML 4.01. ENT_XML1
Behandle Code als XML 1. ENT_XHTML
Behandle Code als XHTML. ENT_HTML5
Behandle Code als HTML 5. -
encoding
-
Ein optionaler Parameter, der die Zeichenkodierung für eine Konvertierung definiert.
Wird der Parameter
encoding
ausgelassen, so wird der Wert der Konfigurationsoption default_charset als Standardwert dafür verwendet.Obwohl dieser Parameter technisch gesehen optional ist, wird dringend empfohlen, den korrekten Wert für den jeweiligen Code anzugeben, falls die Konfigurationsoption default_charset für die jeweilige Eingabe möglicherweise falsch gesetzt ist.
Für den Gebrauch dieser Funktion sind die Zeichenkodierungen
ISO-8859-1
,ISO-8859-15
,UTF-8
,cp866
,cp1251
,cp1252
undKOI8-R
tatsächlich äquivalent, vorausgesetzt,string
selbst ist gültig in der Zeichenkodierung, da die von htmlspecialchars() betroffenen Zeichen in allen genannten Zeichenkodierungen an gleicher Position stehen.Die folgenden Zeichensätze werden unterstützt:
Unterstützte Zeichensätze Zeichensatz Alias Beschreibung ISO-8859-1 ISO8859-1 Westeuropäisch, Latin-1. ISO-8859-5 ISO8859-5 Wenig verwendeter kyrillischer Zeichensatz (Latin/Cyrillic). ISO-8859-15 ISO8859-15 Westeuropäisch, Latin-9. Enthält das Euro-Zeichen sowie französische und finnische Buchstaben, die in Latin-1(ISO-8859-1) fehlen. UTF-8 ASCII-kompatibles Multi-Byte 8-Bit Unicode. cp866 ibm866, 866 DOS-spezifischer kyrillischer Zeichensatz. cp1251 Windows-1251, win-1251, 1251 Windows-spezifischer kyrillischer Zeichensatz. cp1252 Windows-1252, 1252 Windows spezifischer Zeichensatz für westeuropäische Sprachen. KOI8-R koi8-ru, koi8r Russisch. BIG5 950 Traditionelles Chinesisch, hauptsächlich in Taiwan verwendet. GB2312 936 Vereinfachtes Chinesisch, nationaler Standard-Zeichensatz. BIG5-HKSCS Big5 mit Hongkong-spezifischen Erweiterungen; traditionelles Chinesisch. Shift_JIS SJIS, SJIS-win, cp932, 932 Japanisch EUC-JP EUCJP, eucJP-win Japanisch MacRoman Zeichensatz, der von Mac OS verwendet wurde. ''
Eine leere Zeichenkette aktiviert die Erkennung durch die Kodierung des Skripts (Zend multibyte), default_charset und die aktuelle Sprachumgebung (siehe nl_langinfo() und setlocale()), in dieser Reihenfolge. Nicht empfehlenswert. Hinweis: Weitere Zeichensätze sind nicht implementiert. Statt dessen wird die Standard-Kodierung verwendet und eine Warnung ausgegeben.
-
double_encode
-
Wird der Parameter
double_encode
ausgeschaltet, kodiert PHP bereits existierende HTML-Entities nicht noch einmal. Standardmäßig werden jedoch alle Zeichen umgewandelt.
Rückgabewerte
Die umgewandelte Zeichenkette.
Enthält string
eine in dem übergebenen
encoding
ungültige Code-Unit-Sequenz, wird eine
leere Zeichenkette zurückgegeben, sofern weder das
ENT_IGNORE
- noch das
ENT_SUBSITUTE
-Flag gesetzt sind.
Changelog
Version | Beschreibung |
---|---|
8.1.0 |
flags geändert von
ENT_COMPAT zu ENT_QUOTES |
ENT_SUBSTITUTE | ENT_HTML401 .
|
Beispiele
Beispiel #1 htmlspecialchars()-Beispiel
<?php
$neu = htmlspecialchars("<a href='test'>Test</a>", ENT_QUOTES);
echo $neu; // <a href='test'>Test</a>
?>
Anmerkungen
Hinweis:
Zu beachten ist, dass diese Funktion nur die o. a. Umwandlungen durchführt. Für eine vollständige Umwandlung in Entities siehe htmlentities().
Hinweis:
Im Fall von mehrdeutigen
flags
-Werten gelten die folgenden Regeln:
- Wird weder
ENT_COMPAT
,ENT_QUOTES
oderENT_NOQUOTES
angegeben, ist der StandardwertENT_NOQUOTES
.- Werden mehrere von
ENT_COMPAT
,ENT_QUOTES
undENT_NOQUOTES
angegeben, erhältENT_QUOTES
den Vorrang, gefolgt vonENT_COMPAT
.- Wird weder
ENT_HTML401
,ENT_HTML5
,ENT_XHTML
nochENT_XML1
angegeben, ist der StandardwertENT_HTML401
.- Werden mehrere von
ENT_HTML401
,ENT_HTML5
,ENT_XHTML
undENT_XML1
angegeben, erhältENT_HTML5
den Vorrang, gefolgt vonENT_XHTML
,ENT_XML1
undENT_HTML401
.- Werden mehrere von
ENT_DISALLOWED
,ENT_IGNORE
undENT_SUBSTITUTE
angegeben, erhältENT_IGNORE
den Vorrang, gefolgt vonENT_SUBSTITUTE
.
Siehe auch
- get_html_translation_table() - Liefert die Umwandlungstabelle, die von htmlspecialchars und htmlentities verwendet wird
- htmlspecialchars_decode() - Wandelt besondere HTML-Entities zurück in Zeichen um
- strip_tags() - Entfernt HTML- und PHP-Tags aus einem String
- htmlentities() - Wandelt alle geeigneten Zeichen in entsprechende HTML-Entities um
- nl2br() - Fügt vor allen Zeilenumbrüchen eines Strings HTML-Zeilenumbrüche ein