Strings (Zeichenketten)
Ein String stellt eine Kette von Zeichen dar, in der ein Zeichen gleichbedeutend mit einem Byte ist. Das bedeutet, es gibt exakt 256 mögliche Zeichen. Es impliziert zudem, dass PHP keine native Unterstützung von Unicode bietet. Siehe auch Details zum String-Typ.
Hinweis: Unter 32-bit-Versionen kann ein String bis zu 2GB (maximal 2147483647 Bytes) groß werden.
Syntax
Ein String-Literal kann auf vier unterschiedliche Arten spezifiziert werden:
Einfache Anführungszeichen
Der einfachste Weg einen String anzugeben, ist ihn mit
einfachen Anführungszeichen (das Zeichen '
) zu
umschließen.
Um ein einfaches Anführungszeichen hierin anzugeben, fügen sie einen
Backslash (\
) vor dem Zeichen ein. Um einen Backslash
als Zeichen anzugeben, verdoppeln Sie ihn (\\
). Alle
anderen Instanzen von Backslash werden als buchstäblicher Backslash
behandelt: Das bedeutet, dass die anderen Escape-Sequenzen, die Sie
vielleicht gewohnt sind, wie \r
oder
\n
, buchstäblich wie angegeben ausgegeben werden und
keine besondere Bedeutung haben.
Hinweis: Im Gegensatz zu den doppelten Anführungszeichen- und Heredoc-Notationen werden Variablen und Escape-Sequenzen für Sonderzeichen nicht aufgelöst (ersetzt), wenn sie in einem mit einfachen Anführungszeichen umschlossenen String erscheinen.
<?php
echo 'dies ist ein einfacher String';
echo 'Sie können auch Zeilenumbrüche
in dieser Art angeben,
dies ist okay so';
// Gibt aus: Arnold sagte einst: "I'll be back"
echo 'Arnold sagte einst: "I\'ll be back"';
// Ausgabe: Sie löschten C:\*.*?
echo 'Sie löschten C:\\*.*?';
// Ausgabe: Sie löschten C:\*.*?
echo 'Sie löschten C:\*.*?';
// Ausgabe: Dies erzeugt keinen: \n Zeilenumbruch
echo 'Dies erzeugt keinen: \n Zeilenumbruch';
// Ausgabe: Variablen werden $ebenfalls $nicht ersetzt
echo 'Variablen werden $ebenfalls $nicht ersetzt';
?>
Doppelte Anführungszeichen
Wenn der String in doppelte Anführungszeichen (") eingeschlossen wird, interpretiert PHP zusätzliche Escape-Sequenzen für Sonderzeichen:
Sequenz | Bedeutung |
---|---|
\n |
Zeilenumbruch (LF or 0x0A (10) in ASCII) |
\r |
Wagenrücklauf (CR or 0x0D (13) in ASCII) |
\t |
horizontaler Tabulator (HT or 0x09 (9) in ASCII) |
\v |
vertikaler Tabulator (VT or 0x0B (11) in ASCII) |
\e |
Escape-Zeichen (ESC or 0x1B (27) in ASCII) |
\f |
Seitenvorschub (FF or 0x0C (12) in ASCII) |
\\ |
Backslash (Rückstrich) |
\$ |
Dollar-Zeichen |
\" |
doppeltes Anführungszeichen |
\[0-7]{1,3} |
die Folge von Zeichen, die auf den regulären Ausdruck passt, ist ein Zeichen in oktaler Notation, die stillschweigend überläuft, um in ein Byte zu passen (z. B. "\400" === "\000") |
\x[0-9A-Fa-f]{1,2} |
die Folge von Zeichen, die auf den regulären Ausdruck passt, ist ein Zeichen in hexadezimaler Schreibweise |
\u{[0-9A-Fa-f]+} |
die Folge von Zeichen, die auf den regulären Ausdruck passt, ist ein Unicode-Codepunkt, der in der Zeichenkette als UTF-8-Darstellung des Codepunkts ausgegeben wird |
Wie bei Strings in einfachen Anführungszeichen wird beim Maskieren aller anderen Zeichen der Backslash mit ausgegeben.
Das Auflösen von Variablen-Namen ist eine der wichtigsten Besonderheiten von in doppelten Anführungszeichen angegebenen Strings. Siehe hierzu String-Parsing für weitere Details.
Heredoc
Eine dritte Möglichkeit, Strings zu begrenzen, stellt die
Heredoc-Syntax dar: <<<
. Nach diesem Operator
wird ein beliebiger Bezeichner angegeben, dann eine neue Zeile. Hiernach
folgt der eigentliche String und abschließend erneut der
Bezeichner, um die Auszeichnung abzuschließen.
Der schließende Bezeichner darf durch Leerzeichen oder Tabulatoren eingerückt sein, wobei in diesem Fall die Einrückung aus allen Zeilen des Doc-Strings entfernt wird. Vor PHP 7.3.0 muss der schließende Bezeichner in der ersten Spalte der Zeile beginnen.
Außerdem muss der schließende Bezeichner den gleichen Benennungsregeln folgen wie jeder andere Bezeichner in PHP: Er darf nur alphanumerische Zeichen sowie Unterstriche enthalten und muss mit einem nicht-numerischen Zeichen oder einem Unterstrich beginnen.
Beispiel #1 Grundlegendes Heredoc-Beispiel ab PHP 7.3.0
<?php
// keine Einrückung
echo <<<END
a
b
c
\n
END;
// vier Leerzeichen Einrückung
echo <<<END
a
b
c
END;
Das oben gezeigte Beispiel erzeugt folgende Ausgabe mit PHP 7.3:
a b c a b c
Wenn der schließende Bezeichner weiter eingerückt ist als alle Zeilen des Textkörpers, wird ein ParseError ausgelöst:
Beispiel #2 Der schließende Bezeichner darf nicht weiter eingerückt sein, als die Zeilen des Textkörpers
<?php
echo <<<END
a
b
c
END;
Das oben gezeigte Beispiel erzeugt folgende Ausgabe mit PHP 7.3:
PHP Parse error: Invalid body indentation level (expecting an indentation level of at least 3) in example.php on line 4
Wenn der schließende Bezeichner eingerückt ist, können auch Tabulatoren verwendet werden, allerdings dürfen Tabulatoren und Leerzeichen in Bezug auf die Einrückung des schließenden Bezeichners und die Einrückung des Textkörpers (bis zum schließenden Bezeichner) nicht miteinander vermischt werden. In jedem dieser Fälle wird ein ParseError ausgelöst. Diese Whitespace-Einschränkungen wurden aufgenommen, weil die Vermischung von Tabulatoren und Leerzeichen für die Einrückung die Lesbarkeit beeinträchtigt.
Beispiel #3 Unterschiedliche Einrückung für den Bezeichner, der den Textkörper (Leerzeichen) schließt
<?php
// Der gesamte folgende Code funktioniert nicht.
// Unterschiedliche Einrückung für den Bezeichner (Tabulatoren), der den
// Textkörper (Leerzeichen) schließt
{
echo <<<END
a
END;
}
// Vermischung von Leerzeichen und Tabulatoren im Textkörper
{
echo <<<END
a
END;
}
// Vermischung von Leerzeichen und Tabulatoren in der Endmarkierung
{
echo <<<END
a
END;
}
Das oben gezeigte Beispiel erzeugt folgende Ausgabe mit PHP 7.3:
PHP Parse error: Invalid indentation - tabs and spaces cannot be mixed in example.php line 8
Der schließende Bezeichner für den Textkörper muss nicht von einem Semikolon oder Zeilenumbruch gefolgt werden. Zum Beispiel ist der folgende Code ist ab PHP 7.3.0 erlaubt:
Beispiel #4 Fortsetzen eines Ausdrucks nach einem schließenden Bezeichner
<?php
$values = [<<<END
a
b
c
END, 'd e f'];
var_dump($values);
Das oben gezeigte Beispiel erzeugt folgende Ausgabe mit PHP 7.3:
array(2) { [0] => string(11) "a b c" [1] => string(5) "d e f" }
Wenn der schließende Bezeichner am Anfang einer Zeile gefunden wurde, dann kann er unabhängig davon, ob er Teil eines anderen Wortes war, als schließender Bezeichner betrachtet werden und führt zu einem ParseError.
Beispiel #5 Ein schließender Bezeichner im Textkörper der Zeichenkette führt zu einem ParseError
<?php
$values = [<<<END
a
b
END ING
END, 'd e f'];
Das oben gezeigte Beispiel erzeugt folgende Ausgabe mit PHP 7.3:
PHP Parse error: syntax error, unexpected identifier "ING", expecting "]" in example.php on line 6
Um dieses Problem zu vermeiden, ist es ratsam, die einfache Regel zu befolgen: Wählen Sie nicht den schließenden Bezeichner, der im Textkörper erscheint.
Vor PHP 7.3.0 ist es sehr wichtig, darauf zu achten, dass die Zeile mit
dem schließenden Bezeichner keine anderen Zeichen außer einem Semikolon
(;
) enthalten darf. Das heißt insbesondere auch, dass
der Bezeichner nicht eingerückt werden darf und dass
es vor oder nach dem Semikolon auch keine Leerzeichen oder Tabulatoren
geben darf. Zudem muss das erste Zeichen vor dem schließenden Bezeichner
ein Zeilenumbruch sein, so wie er vom Betriebssystem definiert wird. In
UNIX-Systemen, inlusive macOS, ist dies \n
. Auf den
schließenden Bezeichner muss ebenfalls ein Zeilenumbruch folgen.
Wenn diese Regel gebrochen wird und der schließende Bezeichner nicht valide ist, wird er nicht als Bezeichner angenommen und PHP wird weiter nach einem solchen schließenden Bezeichner suchen. Wird kein gültiger schließender Bezeichner vor dem Dateiende gefunden, gibt PHP einen auf die letzte Zeile der Datei weisenden Parser-Fehler aus.
Beispiel #6 Ungültiges Beispiel vor PHP 7.3.0
<?php
class foo {
public $bar = <<<EOT
bar
EOT;
}
// Identifier must not be indented
?>
Beispiel #7 Gültiges Beispiel, auch vor PHP 7.3.0
<?php
class foo {
public $bar = <<<EOT
bar
EOT;
}
?>
Heredocs, die Variablen enthalten, können nicht für die Initialisierung von Klasseneigenschaften verwendet werden.
Heredoc-Text verhält sich genau wie ein String in doppelten Anführungsstrichen, ohne die doppelten Anführungszeichen. Das bedeutet, dass Anführungszeichen in einem Heredoc nicht maskiert werden müssen, aber die oben aufgeführten Maskierungscodes können trotzdem verwendet werden. Variablen werden aufgelöst, aber wenn komplexe Variablen innerhalb eines Heredocs verwendet werden, ist die gleiche Vorsicht geboten wie bei Strings.
Beispiel #8 Beispiel für das Notieren von Heredoc-Strings
<?php
$str = <<<EOD
Ein Beispiel für einen String, der sich
unter Verwendung der heredoc-Syntax
über mehrere Zeilen erstreckt.
EOD;
/* Ein komplexeres Beispiel mit Variablen. */
class foo
{
var $foo;
var $bar;
function __construct()
{
$this->foo = 'Foo';
$this->bar = array('Bar1', 'Bar2', 'Bar3');
}
}
$foo = new foo();
$name = 'MeinName';
echo <<<EOT
Mein Name ist "$name". Ich gebe etwas $foo->foo aus.
Jetzt gebe ich etwas {$foo->bar[1]} aus.
Dies sollte ein großes 'A' ausgeben: \x41
EOT;
?>
Das oben gezeigte Beispiel erzeugt folgende Ausgabe:
Mein Name ist "MeinName". Ich gebe etwas Foo aus. Jetzt gebe ich etwas Bar2 aus. Dies sollte ein großes 'A' ausgeben: A
Es ist auch möglich, die Heredoc-Syntax zu verwenden, um Daten an Funktionsargumente zu übergeben:
Beispiel #9 Beispiel für Heredoc in Argumenten
<?php
var_dump(array(<<<EOD
foobar!
EOD
));
?>
Es ist möglich, statische Variablen und Klasseneigenschaften/Konstanten mit Hilfe der Heredoc-Syntax zu initialisieren:
Beispiel #10 Verwendung von Heredoc zur Initialisierung von statischen Werten
<?php
// Statische Variablen
function foo()
{
static $bar = <<<LABEL
Hier steht nichts drin...
LABEL;
}
// Klasseneigenschaften/Konstanten
class foo
{
const BAR = <<<FOOBAR
Beispiel für eine Konstante
FOOBAR;
public $baz = <<<FOOBAR
Beispiel für eine Eigenschaft
FOOBAR;
}
?>
Der öffnende Heredoc-Bezeichner kann optional in doppelte Anführungszeichen gesetzt werden:
Beispiel #11 Verwendung von doppelten Anführungszeichen in Heredoc
<?php
echo <<<"FOOBAR"
Hallo Welt!
FOOBAR;
?>
Nowdoc
Nowdocs sind für Strings in einfachen Anführungszeichen das, was Heredocs
für Strings in doppelten Anführungszeichen sind. Ein Nowdoc wird ähnlich
wie ein Heredoc angegeben, aber es wird kein Parsing
innerhalb eines Nowdocs durchgeführt. Das Konstrukt ist ideal für die
Einbettung von PHP-Code oder anderen großen Textblöcken ohne maskieren zu
müssen. Es hat einige Eigenschaften mit dem
<![CDATA[ ]]>
-Konstrukt in SGML gemeinsam, indem
es einen Textblock deklariert, der nicht geparst werden soll.
Ein Nowdoc wird mit der gleichen <<<
-Sequenz
identifiziert, die für Heredocs verwendet wird, aber der nachfolgende
Bezeichner wird in einfachen Anführungszeichen eingeschlossen, z. B.
<<<'EOT'
. Alle Regeln für Heredoc-Bezeichner
gelten auch für Nowdoc-Bezeichner, insbesondere die hinsichtlich des
Aussehens des schließenden Bezeichners.
Beispiel #12 Nowdoc-Beispiel für das Notieren von Strings
<?php
echo <<<'EOD'
Ein Beispiel für einen String, der sich über mehrere Zeilen erstreckt
unter Verwendung der Nowdoc-Syntax. Backslashes werden immer als
Buchstaben behandelt,
z. B. \\ und \'.
EOD;
Das oben gezeigte Beispiel erzeugt folgende Ausgabe:
Ein Beispiel für einen String, der sich über mehrere Zeilen erstreckt unter Verwendung der Nowdoc-Syntax. Backslashes werden immer als Buchstaben behandelt, z. B. \\ und \'.
Beispiel #13 Nowdoc Beispiel für Strings mit Variablen
<?php
class foo
{
public $foo;
public $bar;
function __construct()
{
$this->foo = 'Foo';
$this->bar = array('Bar1', 'Bar2', 'Bar3');
}
}
$foo = new foo();
$name = 'MeinName';
echo <<<'EOT'
Mein Name ist "$name". Ich gebe etwas $foo->foo aus.
Jetzt gebe ich etwas {$foo->bar[1]} aus.
Dies sollte ein großes 'A' ausgeben: \x41
EOT;
?>
Das oben gezeigte Beispiel erzeugt folgende Ausgabe:
Mein Name ist "$name". Ich gebe etwas $foo->foo aus. Jetzt gebe ich etwas {$foo->bar[1]} aus. Dies sollte ein großes 'A' ausgeben: \x41
Beispiel #14 Beispiel für statische Daten
<?php
class foo {
public $bar = <<<'EOT'
bar
EOT;
}
?>
Parsing (Analyse) von Variablen
Wenn ein string in doppelten Anführungszeichen oder mit Heredoc angegeben wird, werden darin Variablen geparst.
Es gibt zwei Arten von Syntax: eine einfache und eine komplexe Syntax. Die einfache Syntax ist die gebräuchlichste und bequemste. Sie bietet eine Möglichkeit, eine Variable, einen Array-Wert oder eine Objekt-Eigenschaft mit minimalem Aufwand in einen String einzubetten.
Die komplexe Syntax erkennt man an den geschweifte Klammern, die den Ausdruck umgeben.
Einfache Syntax
Wenn ein Dollarzeichen ($
) vorkommt, nimmt der Parser
gierig so viele Token wie möglich, um einen gültigen Variablennamen zu
bilden. Schließen Sie den Variablennamen in geschweifte Klammern ein, um
das Ende des Namens explizit anzugeben.
<?php
$juice = "apple";
echo "He drank some $juice juice.".PHP_EOL;
// Ungültig. "s" ist ein gültiges Zeichen für einen Variablennamen, aber die
// Variable ist $juice.
echo "He drank some juice made of $juices.";
// Gültig. Geben Sie das Ende des Variablennamens explizit an, indem Sie ihn
// in geschweifte Klammern einschließen:
echo "He drank some juice made of ${juice}s.";
?>
Das oben gezeigte Beispiel erzeugt folgende Ausgabe:
He drank some apple juice. He drank some juice made of . He drank some juice made of apples.
In ähnlicher Weise kann ein Array-Index oder eine
Objekt-Eigenschaft geparst werden. Bei Array-Indizes
markiert die schließende eckige Klammer (]
) das Ende
des Indexes. Für Objekteigenschaften gelten die gleichen Regeln wie für
einfache Variablen.
Beispiel #15 Beispiel für einfache Syntax
<?php
$juices = array("apple", "orange", "koolaid1" => "purple");
echo "He drank some $juices[0] juice.".PHP_EOL;
echo "He drank some $juices[1] juice.".PHP_EOL;
echo "He drank some $juices[koolaid1] juice.".PHP_EOL;
class people {
public $john = "John Smith";
public $jane = "Jane Smith";
public $robert = "Robert Paulsen";
public $smith = "Smith";
}
$people = new people();
echo "$people->john drank some $juices[0] juice.".PHP_EOL;
echo "$people->john then said hello to $people->jane.".PHP_EOL;
echo "$people->john's wife greeted $people->robert.".PHP_EOL;
echo "$people->robert greeted the two $people->smiths."; // Won't work
?>
Das oben gezeigte Beispiel erzeugt folgende Ausgabe:
He drank some apple juice. He drank some orange juice. He drank some purple juice. John Smith drank some apple juice. John Smith then said hello to Jane Smith. John Smith's wife greeted Robert Paulsen. Robert Paulsen greeted the two .
Seit PHP 7.1.0 werden auch negative numerische Indizes unterstützt.
Beispiel #16 Negative numerische Indizes
<?php
$string = 'string';
echo "Das Zeichen an Index -2 ist $string[-2].", PHP_EOL;
$string[-3] = 'o';
echo "Die Änderung des Zeichens an Index -3 auf o ergibt $string.", PHP_EOL;
?>
Das oben gezeigte Beispiel erzeugt folgende Ausgabe:
Das Zeichen an Index -2 ist n. Die Änderung des Zeichens an Index -3 auf o ergibt strong.
Für alles, das komplexer ist, sollten Sie die komplexe Syntax verwenden.
Komplexe (geschweifte) Syntax
Diese Syntax wird nicht komplex genannt, weil sie komplex ist, sondern weil sie die Verwendung komplexer Ausdrücke erlaubt.
Jede skalare Variable, jedes Array-Element oder jede Objekteigenschaft
mit einer String-Darstellung kann über diese Syntax
eingebunden werden. Der Ausdruck wird so geschrieben, wie er auch
außerhalb des Strings erscheinen würde, und dann von
{
und }
umschlossen. Da
{
nicht maskiert werden kann, wird diese Syntax nur
erkannt werden, wenn das $
unmittelbar auf das
{
folgt. Verwenden Sie {\$
, um ein
wörtliches {$
zu erhalten. Einige Beispiele, um es zu
verdeutlichen:
<?php
// Alle Fehler anzeigen
error_reporting(E_ALL);
$great = 'fantastisch';
// Wird nicht funktionieren, Ausgabe: Das ist { fantastisch}
echo "Das ist { $great}";
// Funktioniert, Ausgabe: Das ist fantastisch
echo "Das ist {$great}";
// Funktioniert
echo "Dieses Quadrat ist {$square->width}00 Zentimeter breit.";
// Funktioniert, Anführungszeichen funktionieren nur mit der geschweiften Klammer
echo "Das funktioniert: {$arr['key']}";
// Funktioniert
echo "Das funktioniert: {$arr[4][3]}";
// Dies ist aus demselben Grund falsch, aus dem $foo[bar] außerhalb eines
// Strings falsch ist. Mit anderen Worten, es wird trotzdem funktionieren,
// aber nur, weil PHP zuerst nach einer Konstante namens foo sucht; es wird
// ein Fehler der Stufe E_NOTICE (undefinierte Konstante) ausgelöst.
echo "Das ist falsch: {$arr[foo][3]}";
// Funktioniert. Verwenden Sie bei mehrdimensionalen Arrays immer geschweifte
// Klammern um die Arrays, wenn diese innerhalb von Strings stehen
echo "Das funktioniert: {$arr['foo'][3]}";
// Funktioniert.
echo "Das funktioniert: " . $arr['foo'][3];
echo "Das funktioniert auch: {$obj->values[3]->name}";
echo "Das ist der Wert der Variable namens $name: {${$name}}";
echo "Das ist der Wert der Variable, die durch den Rückgabewert von getName() benannt wurde: {${getName()}}";
echo "Das ist der Wert der Variable, die durch den Rückgabewert von \$object->getName() benannt wurde: {${$object->getName()}}";
// Wird nicht funktionieren, Ausgabe: Das ist der Rückgabewert von getName(): {getName()}
echo "Das ist der Rückgabewert von getName(): {getName()}";
// Wird nicht funktionieren, Ausgabe: C:\folder\.txt
echo "C:\folder\{$great}.txt"
// Funktioniert, Ausgabe: C:\folder\fantastic.txt
echo "C:\\folder\\{$great}.txt"
?>
Es ist mit dieser Syntax auch möglich, über Variablen innerhalb von Strings auf Klasseneigenschaften zuzugreifen.
<?php
class foo {
var $bar = 'I am bar.';
}
$foo = new foo();
$bar = 'bar';
$baz = array('foo', 'bar', 'baz', 'quux');
echo "{$foo->$bar}\n";
echo "{$foo->{$baz[1]}}\n";
?>
Das oben gezeigte Beispiel erzeugt folgende Ausgabe:
I am bar. I am bar.
Hinweis:
Der Wert, auf den von Funktionen, Methodenaufrufen, statischen Klassenvariablen, und Klassenkonstanten innerhalb von
{$}
zugegriffen wird, wird als der Name einer Variablen in dem Bereich interpretiert, in dem der String definiert ist. Die Verwendung von einzelnen geschweiften Klammern ({}
) funktioniert nicht für den Zugriff auf die Rückgabewerte von Funktionen oder Methoden oder die Werte von Klassenkonstanten oder statischen Klassenvariablen.
<?php
// Alle Fehler anzeigen
error_reporting(E_ALL);
class beers {
const softdrink = 'rootbeer';
public static $ale = 'ipa';
}
$rootbeer = 'A & W';
$ipa = 'Alexander Keith\'s';
// Das funktioniert; Ausgabe: Ich hätte gerne ein A & W
echo "Ich hätte gerne ein {${beers::softdrink}}\n";
// Das funktioniert auch; Ausgabe: Ich hätte gerne ein Alexander Keith's
echo "Ich hätte gerne ein {${beers::$ale}}\n";
?>
Zugriff auf Strings und Änderung von Zeichen
Auf ein Zeichen in einem String kann zugegriffen und es kann geändert werden, indem seine Position (von 0 an) hinter dem String mit Hilfe von Array-Klammern angegeben wird, z. B. $str[42]. In diesem Fall ist es hilfreich, sich einen String als ein Array von Zeichen vorzustellen. Die Funktionen substr() und substr_replace() können verwendet werden, wenn mehr als ein Zeichen extrahiert oder ersetzt werden soll.
Hinweis: Seit PHP 7.1.0 werden auch negative String-Offsets unterstützt. Diese geben den Offset vom Ende des Strings an. Früher verursachten negative Offsets beim Lesen eine
E_NOTICE
-Meldung aus (was einen leeren String ergibt) und beim Schreiben eineE_WARNING
-Meldung (was den String unangetastet lässt).
Hinweis: Vor PHP 8.0.0 konnte für den gleichen Zweck auch mit Klammern auf Strings zugegriffen werden, wie in $str. Diese Syntax mit geschweiften Klammern ist seit PHP 7.4.0 veraltet und wird seit PHP 8.0.0 nicht mehr unterstützt.
Das Schreiben an einen Offset außerhalb des vorhandenen Bereichs bewirkt,
dass der String bis zu dieser Position mit Leerzeichen aufgefüllt wird.
Nicht-ganzzahlige Offsets werden in einen ganzzahligen Wert umgewandelt.
Bei ungültigen Offset-Typen wird eine E_WARNING
ausgegeben. Nur das erste Zeichen eines zugewiesenen Strings wird
verwendet. Seit PHP 7.1.0 führt die Zuweisung eines leeren Strings zu
einem schwerwiegenden Fehler. Vorher wurde ein NULL-Byte zugewiesen.
Intern sind PHP-Strings Byte-Arrays. Folglich ist der Zugriff auf einen String oder dessen Änderung mit Array-Klammern nicht Multi-Byte-sicher und sollte nur mit Strings erfolgen, die in einer Ein-Byte-Kodierung wie ISO-8859-1 vorliegen.
Hinweis: Seit PHP 7.1.0 führt die Anwendung des leeren Indexoperators auf einen leeren String zu einem fatalen Fehler. Zuvor wurde der leere String stillschweigend in ein Array umgewandelt.
Beispiel #17 Einige String-Beispiele
<?php
// Ermitteln des ersten Zeichens eines Strings.
$str = 'Das ist ein Test.';
$first = $str[0];
// Ermitteln des dritten Zeichens eines Strings.
$third = $str[2];
// Ermitteln das letzten Zeichens eines Strings.
$str = 'Das ist immer noch ein Test.';
$last = $str[strlen($str)-1];
// Ändern des letzten Zeichens eines Strings.
$str = 'Look at the sea';
$str[strlen($str)-1] = 'e';
?>
String-Offsets müssen entweder Integer oder Integer-ähnliche Strings sein, andernfalls wird eine Warnung ausgelöst.
Beispiel #18 Beispiel für unzulässige String-Offsets
<?php
$str = 'abc';
var_dump($str['1']);
var_dump(isset($str['1']));
var_dump($str['1.0']);
var_dump(isset($str['1.0']));
var_dump($str['x']);
var_dump(isset($str['x']));
var_dump($str['1x']);
var_dump(isset($str['1x']));
?>
Das oben gezeigte Beispiel erzeugt folgende Ausgabe:
string(1) "b" bool(true) Warning: Illegal string offset '1.0' in /tmp/t.php on line 7 string(1) "b" bool(false) Warning: Illegal string offset 'x' in /tmp/t.php on line 9 string(1) "a" bool(false) string(1) "b" bool(false)
Hinweis:
Der Zugriff auf Variablen anderer Typen (ohne Arrays oder Objekte, die entsprechende Schnittstellen implementieren) mit
[]
oder{}
gibt stillschweigendnull
zurück.
Hinweis:
Auf Zeichen innerhalb von String-Literalen kann mit
[]
oder{}
zugegriffen werden.
Hinweis:
Der Zugriff auf Zeichen innerhalb von String-Literalen mit der
{}
-Syntax ist seit PHP 7.4 veraltet und wurde in PHP 8.0 entfernt.
Nützliche Funktionen und Operatoren
Strings können mit dem Punkt-Operator '.' verkettet werden. Es ist zu beachten, dass der Additions-Operator '+' in diesem Fall nicht funktioniert. Siehe String-Operatoren für mehr Informationen.
Es gibt eine Reihe nützlicher Funktionen für die String-Manipulation.
Siehe den Abschnitt String-Funktionen für allgemeine Funktionen und die Funktionen für Perl-kompatible reguläre Ausdrücke für erweiterte Funktionen zum Suchen und Ersetzen.
Außerdem gibt es Funktionen für URL-Strings und Funktionen zum Verschlüsseln/Entschlüsseln von Strings (Sodium und Hash).
Siehe zudem auch die Zeichentyp-Funktionen.
Converting to string
Ein Wert kann mit dem Schlüsselwort (string)
oder der
Funktion strval() in einen String
umgewandelt werden. Die Umwandlung in einen String erfolgt
automatisch im Kontext eines Ausdrucks, in dem ein String
erforderlich ist. Dies geschieht z. B. bei der Verwendung der Funktionen
echo oder print oder wenn eine
Variable mit einem String verglichen wird. In den Abschnitten
über Typen und
Typ-Manipulationen
werden die folgenden Punkte näher erläutert. Siehe auch die Funktion
settype().
Ein bool true
-Wert wird in den String
"1"
umgewandelt. bool false
wird in
""
(den leeren String) umgewandelt. Dies ermöglicht es,
zwischen bool- und String-Werten hin und her zu
konvertieren.
Ein Int oder Float wird in einen
String umgewandelt, der die Zahl textuell darstellt
(einschließlich des Exponententeil bei Floats).
Gleitkommazahlen können mit der Exponentialschreibweise umgewandelt werden
(4.1E+6
).
Hinweis:
Seit PHP 8.0.0 ist das Dezimalpunktzeichen immer
.
. Vor PHP 8.0.0 wird das Dezimalpunktzeichen in der Locale des Skripts definiert (Kategorie LC_NUMERIC). Siehe die Funktion setlocale().
Arrays werden immer in
String-"Arrays"
umgewandelt; aus diesem
Grund können echo und print nicht
von sich aus den Inhalt eines Arrays anzeigen. Um ein
einzelnes Element anzuzeigen, verwendet man eine Konstruktion wie
echo $arr['foo']
. Siehe unten für Tipps zur Anzeige
des gesamten Inhalts.
Um Objekte in Strings umzuwandeln, muss die magische Methode __toString verwendet werden.
Ressourcen werden immer mit der Struktur
"Resource id #1"
in Strings umgewandelt,
wobei 1
die Ressourcennummer ist, die der
Ressource von PHP zur Laufzeit zugewiesen wird. Obwohl man
sich nicht auf die genaue Struktur dieses Strings verlassen sollte und sie
sich ändern kann, wird sie für eine bestimmte Ressource innerhalb der
Lebensdauer eines ausgeführten Skripts (d. h. einer Web-Anfrage oder eines
CLI-Prozesses) immer eindeutig sein und wird nicht wiederverwendet. Um den
Typ einer Ressource zu erhalten, kann die Funktion
get_resource_type() verwendet werden.
null
wird immer in einen leeren String umgewandelt.
Wie oben erwähnt, liefert die direkte Umwandlung eines Arrays, Objekts oder einer Ressource in einen String keine nützlichen Informationen über den Wert, die über seinen Typ hinausgehen. Um den Inhalt dieser Typen zu ermitteln, siehe die Funktionen print_r() und var_dump().
Die meisten PHP-Werte können zur dauerhaften Speicherung auch in Strings umgewandelt werden. Diese Methode wird Serialisierung genannt und wird von der Funktion serialize() durchgeführt.
Details zum String-Typ
Der Typ string ist in PHP als ein Array von Bytes und einem
Integer, der die Länge des Puffers angibt, implementiert. Er hat keine
Informationen darüber, wie diese Bytes in Zeichen umgewandelt werden; diese
Aufgabe wird dem Programmierer überlassen. Es gibt keine Beschränkungen für
die Werte, aus denen der String bestehen kann; insbesondere Insbesondere
sind Bytes mit dem Wert 0
("NUL-Bytes") in der
Zeichenkette erlaubt (allerdings können einige Funktionen, die in diesem
Handbuch als nicht "binärsicher" eingestuft werden, die Strings an
Bibliotheken weitergeben, die Daten nach einem NUL-Byte ignorieren).
Diese Eigenschaft des String-Typs erklärt, warum es in PHP keinen separaten "Byte"-Typ gibt - Strings übernehmen diese Rolle. Funktionen, die keine textuellen Daten zurückgeben - zum Beispiel beliebige Daten, die von einem Netzwerksocket gelesen werden - geben immer noch Strings zurück.
Da PHP keine spezifische Kodierung für Strings vorschreibt, könnte man sich
fragen, wie String-Literale kodiert werden. Ist zum Beispiel der String
"á"
äquivalent zu "\xE1"
(ISO-8859-1), "\xC3\xA1"
(UTF-8, C-Form),
"\x61\xCC\x81"
(UTF-8, D-Form) oder zu irgendeiner
anderen möglichen Darstellung? Die Antwort lautet, dass der String auf die
Art und Weise kodiert wird, wie er in der Skriptdatei kodiert ist. Wenn das
Skript also in ISO-8859-1 geschrieben ist, wird die Zeichenkette in
ISO-8859-1 kodiert und so weiter. Das gilt jedoch nicht, wenn
Zend-Multibyte aktiviert ist; in diesem Fall kann das Skript in einer
beliebigen Kodierung geschrieben werden (die explizit deklariert ist oder
erkannt wird) und dann in eine bestimmte interne Kodierung konvertiert
werden, welche dann die Kodierung ist, die für die String-Literale
verwendet wird. Es ist zu beachten, dass es einige Beschränkungen für die
Kodierung des Skripts gibt (oder für die interne Kodierung gibt, sollte
Zend-Multibyte aktiviert sein) - das bedeutet fast immer, dass diese
Kodierung eine kompatible Obermenge von ASCII sein sollte, wie z. B. UTF-8
oder ISO-8859-1. Es ist jedoch zu beachten, dass zustandsabhängige
Kodierungen, bei denen dieselben Byte-Werte sowohl im Anfangszustand als
auch im Nicht-Anfangszustand verwendet werden können, problematisch sein
können.
Um nützlich zu sein, müssen Funktionen, die mit Text arbeiten, natürlich Annahmen darüber treffen, wie der String kodiert ist. Leider gibt es in diesem Punkt viele Unterschiede zwischen den PHP-Funktionen:
- Einige Funktionen gehen davon aus, dass der String in einer (beliebigen) Ein-Byte-Kodierung kodiert ist, aber sie müssen diese Bytes nicht als bestimmte Zeichen interpretieren. Dies ist z. B. der Fall bei substr(), strpos(), strlen() oder strcmp(). Eine andere Möglichkeit, sich diese Funktionen vorzustellen, ist, dass sie mit Speicherpuffern arbeiten, d. h. sie arbeiten mit Bytes und Byte-Offsets.
- Anderen Funktionen wird die Kodierung des Strings übergeben, eventuell nehmen sie auch einen Standardwert an, wenn keine solche Information angegeben wird. Dies ist der Fall bei htmlentities() und den meisten der Funktionen in der mbstring-Erweiterung.
-
Andere verwenden die aktuelle Locale (siehe
setlocale()), arbeiten aber Byte für Byte. Dies ist
der Fall bei strcasecmp(),
strtoupper() und ucfirst(). Das
bedeutet, dass sie nur mit Ein-Byte-Kodierungen verwendet werden können,
solange die Kodierung mit der Locale übereinstimmt. Zum Beispiel
strtoupper("á")
kann"Á"
zurückgeben, wenn die Locale korrekt eingestellt ist undá
mit einem einzigen Byte kodiert ist. Wenn es in UTF-8 kodiert ist, wird nicht das richtige Ergebnis zurückgegeben und der resultierende String kann je nach aktueller Locale fehlerhaft oder nicht. -
Letztendlich können sie einfach davon ausgehen, dass der String eine
bestimmte Kodierung verwendet, normalerweise UTF-8. Dies ist der Fall bei
den meisten Funktionen in der
intl-Erweiterung und in der
PCRE-Erweiterung (im letzteren Fall nur,
wenn der Modifikator
u
verwendet wird). Auch wenn dies auf ihren besonderen Zweck zurückzuführen ist, geht die Funktion utf8_decode() von einer UTF-8-Kodierung aus und die Funktion utf8_encode() von einer ISO-8859-1-Kodierung.
Letztlich bedeutet dies, dass das Schreiben korrekter Programme mit Unicode davon abhängt, Funktionen, die nicht funktionieren und die Daten höchstwahrscheinlich beschädigen, sorgfältig zu vermeiden und stattdessen die Funktionen zu verwenden, die sich korrekt verhalten. Im Allgemeinen sind das die Funktionen der intl- und mbstring-Erweiterungen. Die Verwendung von Funktionen, die Unicode-Kodierungen verarbeiten können, ist jedoch nur der Anfang. Unabhängig von den Funktionen, die die Sprache zur Verfügung stellt, ist es wichtig, die Unicode-Spezifikation zu kennen. Ein Programm, das zum Beispiel davon ausgeht, dass es nur Groß- und Kleinbuchstaben gibt, geht von einer falschen Annahme aus.