Zitat von Lengen1971
Beitrag anzeigen
einzelnes Unicode Zeichen ersetzen
Einklappen
X
-
Die erhaltenen Daten sehen wirklich nicht gut aus.
Du könntest einen Hex-Dump der unveränderten Eingabedaten posten.
Dann lässt sich sicherer überprüfen, ob da was nicht passt.
PHP-Code:<?php
function strToHex($string)
{
$hex = '';
$l = strlen($string);
for ($i = 0; $i < $l; $i++) {
$hex .= sprintf('%02X', ord($string[$i]));
if (($i + 1) % 16 === 0) {
$hex .= "\n";
} else {
$hex .= ' ';
}
}
return rtrim($hex);
}
$input = file_get_contents(__FILE__); /* Whatever */
echo '<pre>' . strToHex($input), '</pre>';
The Single Most Important Fact About Encodings
If you completely forget everything I just explained, please remember one extremely important fact. It does not make sense to have a string without knowing what encoding it uses. [Hervorhebungen verändert.]
Kommentar
-
Hi,
zu einem früheren Problem hatte ich die Entwickler angeschrieben. Bei einer API würde ich mir eine Art Ticket-System wünschen oder ein Forum, in dem evtl. sogar einer der Entwickler mitspielt. Leider gibt´s nur eine Email, auf die dann laaaang nicht geantwortet wird.
Diese API wird auch nicht weiterentwickelt und wirft hunderte Warnings und Notices. Macht ja nix...
Es ist jetzt eine neue API angekündigt, aber noch nicht freigegeben.
Nachdem ich das relativ sinnvoll in ein CMS bauen muss stehen mir schon wieder die Haare zu Berge, da es nur den Umweg über IFrame gibt.
Aber das hat nichts mit dem Problem zu tun.
Grüßla
Michel
PS: ÜBRIGENS: am IE wurden die Zeichen gar nicht dargestellt, also, auch nicht dieses Viereck mit dem Unicode.
Kommentar
-
der HEX-Code
Na, dann bin ich mal gespannt, hier die Ausgabe der oben geposteten Funktion des unveränderten Rückgabe-Strings:
46 6C 75 72 2D 4E 75 6D 6D 65 72 3A 09 32 32 37 39 2F 34 20 0D 0A 0D 0A 42 61 75 72 65 63 68 74 3A 09 0D 0A 4D 69 73 63 68 67 65 62 69 65 74 20 6E 61 63 68 20 C2 A7 20 33 34 20 42 61 75 47 42 2C 20 42 65 62 61 75 62 61 72 6B 65 69 74 20 67 65 6D C3 A4 C3 9F 20 75 6D 6C 69 65 67 65 6E 64 65 72 20 42 65 62 61 75 75 6E 67 2C 20 77 69 65 20 45 69 6E 66 61 6D 69 6C 69 65 6E 68 61 75 73 20 6F 64 65 72 20 44 6F 70 70 65 6C 68 61 75 73 2E 20 0D 0A 0D 0A 47 72 75 6E 64 73 74 C3 BC 63 6B 73 66 6C C3 A4 63 68 65 3A 09 0D 0A 31 2E 34 38 38 20 6D C2 B2 20 69 6E 73 67 65 73 61 6D 74 2C 20 69 6E 20 50 61 72 7A 65 6C 6C 65 6E 20 61 62 20 63 61 2E 20 34 30 30 20 6D C2 B2 20 74 65 69 6C 62 61 72 2E 0D 0A 0D 0A 45 72 73 63 68 6C 69 65 C3 9F 75 6E 67 3A 09 0D 0A 44 69 65 20 53 74 72 61 C3 9F 65 6E 61 75 73 62 61 75 62 65 74 72 C3 A4 67 65 20 73 69 6E 64 20 61 62 67 65 72 65 63 68 6E 65 74 20 75 6E 64 20 62 65 7A 61 68 6C 74 2E 20 0D 0A 0D 0A 44 65 72 20 56 65 72 6B 61 75 66 20 65 72 66 6F 6C 67 74 20 64 69 72 65 6B 74 20 75 6E 64 20 70 72 6F 76 69 73 69 6F 6E 73 66 72 65 69 20 76 6F 6E 20 75 6E 73 20 61 6C 73 20 45 69 67 65 6E 74 C3 BC 6D 65 72 2E 0D 0A 0D 0A 4B 61 75 66 70 72 65 69 73 3A 20 C2 80 20 31 35 30 2C 30 30 20 2F 20 6D C2 B2Zuletzt geändert von AmicaNoctis; 29.09.2011, 17:32. Grund: code in quote geändert, das war ja mehrere kilometer breit
Kommentar
-
Hat mein Code nicht Zeilenumbrüche hinzugefügt? Kannst du das in deinem Post bitte mal irgendwie fixen?
Jedenfalls: Die Eingabedaten scheinen völlig korrekt in UTF-8 kodiert zu sein.
Es wurden lediglich teilweise falsche Zeichen kodiert. Das ist sicherlich ein vorangehender Konvertierungsfehler.
Das einzige Problem mit den geposteten Beispieldaten ist das Zeichen, welches eigentlich das €-Zeichen sein sollte. Das ist kodiert als xC280. xC280 steht in der Unicode-Tabelle direkt hinter ASCII und bezeichnet einen „<control>“-Character.
- Unicode/UTF-8-Zeichentabelle
Wenn man sich etwas mit Zeichensätzen auskennt, kann man sich jetzt in etwa denken, was passiert ist:
Es gab eine ursprüngliche Eingabe in ISO-8859-1, die nach UTF-8 kodiert wurde. x80 ist in ISO-8859-1 aber ein Kontrollzeichen, nicht das €-Symbol, und wurde deshalb völlig korrekt zu diesem ominösen xC280.
Nur war diese Eingabe eigentlich kein ISO-8859-1, sondern Windows-1252. Dort steht x80 für das €-Zeichen.
- ISO 8859-1 ? Wikipedia
In Code:
PHP-Code:<?php // Datei-Kodierung: UTF-8
header('Content-Type: text/html; charset=UTF-8');
// String in Windows-1252 erzeugen
$cp1252 = mb_convert_encoding('Kaufpreis: € 150,00 / m²', 'Windows-1252', 'UTF-8');
// Diesen String fälschlich als ISO-8859-1 interpretieren und nach UTF-8 umwandeln
echo mb_convert_encoding($cp1252, 'UTF-8', 'ISO-8859-1');
Das betrifft alle Zeichen, die in Windows-1252 dort liegen, wo in ISO-8859-1 die Steuerzeichen liegen. In UTF-8 gesprochen: Alles zwischen xC280 und xC29F. Die müssen in die korrekten UTF-8-Entsprechungen konvertiert werden.
Um es kurz zu machen:
PHP-Code:function cp1252Fixes($input)
{
$fixes = array(
"\xC2\x80" => "\xE2\x82\xAC",
"\xC2\x81" => "\xEF\xBF\xBE",
"\xC2\x82" => "\xE2\x80\x9A",
"\xC2\x83" => "\xC6\x92",
"\xC2\x84" => "\xE2\x80\x9E",
"\xC2\x85" => "\xE2\x80\xA6",
"\xC2\x86" => "\xE2\x80\xA0",
"\xC2\x87" => "\xE2\x80\xA1",
"\xC2\x88" => "\xCB\x86",
"\xC2\x89" => "\xE2\x80\xB0",
"\xC2\x8A" => "\xC5\xA0",
"\xC2\x8B" => "\xE2\x80\xB9",
"\xC2\x8C" => "\xC5\x92",
"\xC2\x8D" => "\xEF\xBF\xBE",
"\xC2\x8E" => "\xC5\xBD",
"\xC2\x8F" => "\xEF\xBF\xBE",
"\xC2\x90" => "\xEF\xBF\xBE",
"\xC2\x91" => "\xE2\x80\x98",
"\xC2\x92" => "\xE2\x80\x99",
"\xC2\x93" => "\xE2\x80\x9C",
"\xC2\x94" => "\xE2\x80\x9D",
"\xC2\x95" => "\xE2\x80\xA2",
"\xC2\x96" => "\xE2\x80\x93",
"\xC2\x97" => "\xE2\x80\x94",
"\xC2\x98" => "\xCB\x9C",
"\xC2\x99" => "\xE2\x84\xA2",
"\xC2\x9A" => "\xC5\xA1",
"\xC2\x9B" => "\xE2\x80\xBA",
"\xC2\x9C" => "\xC5\x93",
"\xC2\x9D" => "\xEF\xBF\xBE",
"\xC2\x9E" => "\xC5\xBE",
"\xC2\x9F" => "\xC5\xB8"
);
return str_replace(array_keys($fixes), array_values($fixes), $input);
}
header('Content-Type: text/plain; charset=UTF-8');
$input = cp1252Fixes($input);
echo $input;
Rant am Rande:
Warum passieren solche Fehler? Auch deshalb, weil Browser sowas…
PHP-Code:<?php // UTF-8
header('Content-Type: text/html; charset=ISO-8859-1');
echo mb_convert_encoding('Dies ist „ein“ Test €.', 'Windows-1252', 'UTF-8');Zuletzt geändert von mermshaus; 29.09.2011, 16:44.
Kommentar
-
Hallo mermshaus,
vielen Dank für deine ausführliche Erklärung und Mühe.
Den Post kann ich nicht sinnvoll ändern, ich kann ja nur Copy-Paste aus der Ausgabe deiner Funktion.
Ja, es betrifft das Euro-Zeichen und diverse Anführungszeichen und Binde- oder Gedankenstriche. So lös ich das jetzt:
PHP-Code:$arr_unicode=array("/\x{0080}/u","/\x{0084}/u","/\x{0093}/u","/\x{0096}/u");
$arr_ersetz=array("€","„",""","–");
Michel
Kommentar
Kommentar