einzelnes Unicode Zeichen ersetzen

Einklappen
X
 
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

  • #16
    Zitat von Lengen1971 Beitrag anzeigen
    Ich hatte schonmal Kontakt zu dem Entwicklerteam, das war sehr ernüchternd.
    Was war die Antwort? Wir sind unfähig und könnens eben nicht besser?

    Kommentar


    • #17
      Die erhaltenen Daten sehen wirklich nicht gut aus.

      Du könntest einen Hex-Dump der unveränderten Eingabedaten posten.

      Dann lässt sich sicherer überprüfen, ob da was nicht passt.

      PHP-Code:
      <?php

      function strToHex($string)
      {
          
      $hex '';
          
      $l strlen($string);

          for (
      $i 0$i $l$i++) {
              
      $hex .= sprintf('%02X'ord($string[$i]));

              if ((
      $i 1) % 16 === 0) {
                  
      $hex .= "\n";
              } else {
                  
      $hex .= ' ';
              }
          }
          
          return 
      rtrim($hex);
      }

      $input file_get_contents(__FILE__); /* Whatever */

      echo '<pre>' strToHex($input), '</pre>';
      Scheint mir aber auch so, dass der Anbieter da Mist gebaut hat.

      The Single Most Important Fact About Encodings

      If you completely forget everything I just explained, please remember one extremely important fact. It does not make sense to have a string without knowing what encoding it uses. [Hervorhebungen verändert.]
      - The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!) - Joel on Software

      Kommentar


      • #18
        Hi,

        zu einem früheren Problem hatte ich die Entwickler angeschrieben. Bei einer API würde ich mir eine Art Ticket-System wünschen oder ein Forum, in dem evtl. sogar einer der Entwickler mitspielt. Leider gibt´s nur eine Email, auf die dann laaaang nicht geantwortet wird.

        Diese API wird auch nicht weiterentwickelt und wirft hunderte Warnings und Notices. Macht ja nix...

        Es ist jetzt eine neue API angekündigt, aber noch nicht freigegeben.

        Nachdem ich das relativ sinnvoll in ein CMS bauen muss stehen mir schon wieder die Haare zu Berge, da es nur den Umweg über IFrame gibt.

        Aber das hat nichts mit dem Problem zu tun.

        Grüßla
        Michel

        PS: ÜBRIGENS: am IE wurden die Zeichen gar nicht dargestellt, also, auch nicht dieses Viereck mit dem Unicode.

        Kommentar


        • #19
          der HEX-Code

          Na, dann bin ich mal gespannt, hier die Ausgabe der oben geposteten Funktion des unveränderten Rückgabe-Strings:

          46 6C 75 72 2D 4E 75 6D 6D 65 72 3A 09 32 32 37 39 2F 34 20 0D 0A 0D 0A 42 61 75 72 65 63 68 74 3A 09 0D 0A 4D 69 73 63 68 67 65 62 69 65 74 20 6E 61 63 68 20 C2 A7 20 33 34 20 42 61 75 47 42 2C 20 42 65 62 61 75 62 61 72 6B 65 69 74 20 67 65 6D C3 A4 C3 9F 20 75 6D 6C 69 65 67 65 6E 64 65 72 20 42 65 62 61 75 75 6E 67 2C 20 77 69 65 20 45 69 6E 66 61 6D 69 6C 69 65 6E 68 61 75 73 20 6F 64 65 72 20 44 6F 70 70 65 6C 68 61 75 73 2E 20 0D 0A 0D 0A 47 72 75 6E 64 73 74 C3 BC 63 6B 73 66 6C C3 A4 63 68 65 3A 09 0D 0A 31 2E 34 38 38 20 6D C2 B2 20 69 6E 73 67 65 73 61 6D 74 2C 20 69 6E 20 50 61 72 7A 65 6C 6C 65 6E 20 61 62 20 63 61 2E 20 34 30 30 20 6D C2 B2 20 74 65 69 6C 62 61 72 2E 0D 0A 0D 0A 45 72 73 63 68 6C 69 65 C3 9F 75 6E 67 3A 09 0D 0A 44 69 65 20 53 74 72 61 C3 9F 65 6E 61 75 73 62 61 75 62 65 74 72 C3 A4 67 65 20 73 69 6E 64 20 61 62 67 65 72 65 63 68 6E 65 74 20 75 6E 64 20 62 65 7A 61 68 6C 74 2E 20 0D 0A 0D 0A 44 65 72 20 56 65 72 6B 61 75 66 20 65 72 66 6F 6C 67 74 20 64 69 72 65 6B 74 20 75 6E 64 20 70 72 6F 76 69 73 69 6F 6E 73 66 72 65 69 20 76 6F 6E 20 75 6E 73 20 61 6C 73 20 45 69 67 65 6E 74 C3 BC 6D 65 72 2E 0D 0A 0D 0A 4B 61 75 66 70 72 65 69 73 3A 20 C2 80 20 31 35 30 2C 30 30 20 2F 20 6D C2 B2
          Zuletzt geändert von AmicaNoctis; 29.09.2011, 17:32. Grund: code in quote geändert, das war ja mehrere kilometer breit

          Kommentar


          • #20
            Hat mein Code nicht Zeilenumbrüche hinzugefügt? Kannst du das in deinem Post bitte mal irgendwie fixen?

            Jedenfalls: Die Eingabedaten scheinen völlig korrekt in UTF-8 kodiert zu sein.

            Es wurden lediglich teilweise falsche Zeichen kodiert. Das ist sicherlich ein vorangehender Konvertierungsfehler.

            Das einzige Problem mit den geposteten Beispieldaten ist das Zeichen, welches eigentlich das €-Zeichen sein sollte. Das ist kodiert als xC280. xC280 steht in der Unicode-Tabelle direkt hinter ASCII und bezeichnet einen „<control>“-Character.

            - Unicode/UTF-8-Zeichentabelle

            Wenn man sich etwas mit Zeichensätzen auskennt, kann man sich jetzt in etwa denken, was passiert ist:

            Es gab eine ursprüngliche Eingabe in ISO-8859-1, die nach UTF-8 kodiert wurde. x80 ist in ISO-8859-1 aber ein Kontrollzeichen, nicht das €-Symbol, und wurde deshalb völlig korrekt zu diesem ominösen xC280.

            Nur war diese Eingabe eigentlich kein ISO-8859-1, sondern Windows-1252. Dort steht x80 für das €-Zeichen.

            - ISO 8859-1 ? Wikipedia

            In Code:

            PHP-Code:
            <?php // Datei-Kodierung: UTF-8

            header('Content-Type: text/html; charset=UTF-8');

            // String in Windows-1252 erzeugen
            $cp1252 mb_convert_encoding('Kaufpreis: € 150,00 / m²''Windows-1252''UTF-8');

            // Diesen String fälschlich als ISO-8859-1 interpretieren und nach UTF-8 umwandeln
            echo mb_convert_encoding($cp1252'UTF-8''ISO-8859-1');
            Gibt's einen Fix? – Eigentlich nein. Aber da du wohl davon ausgehen kannst, dass niemand Steuerzeichen in seinen Text setzt, kannst du bei den entsprechenden Zeichen annehmen, dass sie falsch konvertiert wurden.

            Das betrifft alle Zeichen, die in Windows-1252 dort liegen, wo in ISO-8859-1 die Steuerzeichen liegen. In UTF-8 gesprochen: Alles zwischen xC280 und xC29F. Die müssen in die korrekten UTF-8-Entsprechungen konvertiert werden.

            Um es kurz zu machen:

            PHP-Code:
            function cp1252Fixes($input)
            {
                
            $fixes = array(
                    
            "\xC2\x80" => "\xE2\x82\xAC",
                    
            "\xC2\x81" => "\xEF\xBF\xBE",
                    
            "\xC2\x82" => "\xE2\x80\x9A",
                    
            "\xC2\x83" => "\xC6\x92",
                    
            "\xC2\x84" => "\xE2\x80\x9E",
                    
            "\xC2\x85" => "\xE2\x80\xA6",
                    
            "\xC2\x86" => "\xE2\x80\xA0",
                    
            "\xC2\x87" => "\xE2\x80\xA1",
                    
            "\xC2\x88" => "\xCB\x86",
                    
            "\xC2\x89" => "\xE2\x80\xB0",
                    
            "\xC2\x8A" => "\xC5\xA0",
                    
            "\xC2\x8B" => "\xE2\x80\xB9",
                    
            "\xC2\x8C" => "\xC5\x92",
                    
            "\xC2\x8D" => "\xEF\xBF\xBE",
                    
            "\xC2\x8E" => "\xC5\xBD",
                    
            "\xC2\x8F" => "\xEF\xBF\xBE",
                    
            "\xC2\x90" => "\xEF\xBF\xBE",
                    
            "\xC2\x91" => "\xE2\x80\x98",
                    
            "\xC2\x92" => "\xE2\x80\x99",
                    
            "\xC2\x93" => "\xE2\x80\x9C",
                    
            "\xC2\x94" => "\xE2\x80\x9D",
                    
            "\xC2\x95" => "\xE2\x80\xA2",
                    
            "\xC2\x96" => "\xE2\x80\x93",
                    
            "\xC2\x97" => "\xE2\x80\x94",
                    
            "\xC2\x98" => "\xCB\x9C",
                    
            "\xC2\x99" => "\xE2\x84\xA2",
                    
            "\xC2\x9A" => "\xC5\xA1",
                    
            "\xC2\x9B" => "\xE2\x80\xBA",
                    
            "\xC2\x9C" => "\xC5\x93",
                    
            "\xC2\x9D" => "\xEF\xBF\xBE",
                    
            "\xC2\x9E" => "\xC5\xBE",
                    
            "\xC2\x9F" => "\xC5\xB8"
                
            );

                return 
            str_replace(array_keys($fixes), array_values($fixes), $input);
            }

            header('Content-Type: text/plain; charset=UTF-8');

            $input cp1252Fixes($input);

            echo 
            $input


            Rant am Rande:

            Warum passieren solche Fehler? Auch deshalb, weil Browser sowas…

            PHP-Code:
            <?php // UTF-8

            header('Content-Type: text/html; charset=ISO-8859-1');

            echo 
            mb_convert_encoding('Dies ist „ein“ Test €.''Windows-1252''UTF-8');
            …„korrekt“ (also lesbar) rendern. Das ist falsch falsch falsch. (Auch wenn die offiziellen Stellen vielleicht etwas anderes behaupten. )
            Zuletzt geändert von mermshaus; 29.09.2011, 16:44.

            Kommentar


            • #21
              Hallo mermshaus,

              vielen Dank für deine ausführliche Erklärung und Mühe.

              Den Post kann ich nicht sinnvoll ändern, ich kann ja nur Copy-Paste aus der Ausgabe deiner Funktion.

              Ja, es betrifft das Euro-Zeichen und diverse Anführungszeichen und Binde- oder Gedankenstriche. So lös ich das jetzt:
              PHP-Code:
              $arr_unicode=array("/\x{0080}/u","/\x{0084}/u","/\x{0093}/u","/\x{0096}/u");
              $arr_ersetz=array("&euro;","&bdquo;","&quot;","&ndash;"); 
              Grüßla
              Michel

              Kommentar

              Lädt...
              X