assoziatives Array

Collapse
X
 
  • Filter
  • Time
  • Show
Clear All
new posts

  • assoziatives Array

    Hallo

    Ich möchte ein kleines Programm schreiben, wo es um ein Alphabet und dessen Zeichen geht. Dazu sollte ich ganz genau wissen, welche Zeichen ich als Schlüssel eines assoziativen Arrays verwenden darf.

    PHP: Arrays - Manual

    Der Schlüssel kann entweder ein Integer oder ein String sein.
    Wenn ich mit UTF-8 arbeite, könnte es dann passieren, dass es hier Unterschiede gibt? Also dass ich bei der Definition eines Strings mit Zeichen (ev. Sonderzeichen) arbeiten kann, die aber als Array-Schlüssel verboten sind?
    Aufgrund Spams ignoriere ich h3ll.

  • #2
    Originally posted by narutos View Post
    Wenn ich mit UTF-8 arbeite, könnte es dann passieren, dass es hier Unterschiede gibt? Also dass ich bei der Definition eines Strings mit Zeichen (ev. Sonderzeichen) arbeiten kann, die aber als Array-Schlüssel verboten sind?
    Da PHP einen String wie ein Byte-Array behandelt, ist es vollkommen irrelevant welche Kodierung und welche Zeichen verwendet werden. Ausnahmen sind Strings, die Ganzzahlenwerte beinhalten. Diese werden in einen Integer konvertiert.

    Comment


    • #3
      php - How would you create a string of all UTF-8 characters? - Stack Overflow

      PHP Code:
      function unichr($i) {     return iconv('UCS-4LE''UTF-8'pack('V'$i)); }  $codeunits = array(); for ($i 0$i<0xD800$i++)     $codeunits[] = unichr($i); for ($i 0xE000$i<0xFFFF$i++)     $codeunits[] = unichr($i); $all implode($codeunits); 
      Jetzt wollte ich diesen Code verwenden, um die Zeichen als Schlüssel einem Array zu übergeben. Mein Testprogramm schaut folgendermaßen aus:
      PHP Code:
      <?php
         error_reporting
      (-1);
         
         
      mb_internal_encoding('UTF-8');
         
         function 
      unichr($i$from)
         {
            
      $v pack('V'$i);
            return 
      iconv($from'UTF-8'$v);
         }

         
      // Schlüssel setzen:
         
      $codeunits = array();
         for(
      $i 0$i 0xD800; ++$i)
         {
            
      $c unichr($i'UCS-4LE');
            
      $codeunits[$c] = $c;
         }
         for (
      $i 0xE000$i 0xFFFF; ++$i)
         {
            
      $c unichr($i'UCS-4LE');
            
      $codeunits[] = $c;
         }
         
         
      // Kontrolle:
         
      $i 0;
         foreach(
      $codeunits as $key => $value)
         {
            if(
      is_int($key))
            {
               if(
      $key != $value)
               {
                  die(
      $i.': '.$key.', '.$value);
               }
            }
            elseif(
      $key !== $value)
            {
               die(
      $i.': '.$key.', '.$value);
            }
            ++
      $i;
         }
         echo 
      'OK';
      ?>
      Allerdings liefert mir das nicht das erhoffte OK, sondern:

      55296: 10, 
      Jetzt weiß ich nicht. Liegt das nur an meinem Programm, oder gibt es doch Zeichen, die man nicht als Schlüssel verwenden darf?
      Aufgrund Spams ignoriere ich h3ll.

      Comment


      • #4
        Ich habe jetzt nicht recherchiert, was unichr genau tut, aber hier…

        PHP Code:
           for ($i 0xE000$i 0xFFFF; ++$i)
           {
              
        $c unichr($i'UCS-4LE');
              
        $codeunits[] = $c;
           } 
        …weiß ich nicht, wieso dem nächsten automatisch vergebenen Index das $c entsprechen sollte? (Tut jedenfalls keins der 8191 Elemente in dieser Schleife.)

        Könntest du das kurz erklären?
        Last edited by mermshaus; 26-09-2014, 06:43.

        Comment


        • #5
          Dumm von mir, hab das $c für den Schlüssel vergessen ...

          Aber was das Programm macht, weiß ich auch nicht. Keine Ahnung, was da passiert.

          Ich verstehe auch den folgenden Hinweis nicht:

          (I avoided the surrogate range 0xD800–0xDFFF as they aren't valid to put in UTF-8 themselves; that would be “CESU-8”.)
          Soll man für diesen Bereich mit CESU-8 statt mit UCS-4LE arbeiten?

          PHP Code:
             for($i 0xD800$i 0xE000; ++$i)
             {
                
          $c unichr($i'CESU-8');
                
          $codeunits[$c] = $c;
             } 
          Ist das damit gemeint? Das klappt aber nicht:
          conversion from `CESU-8' to `UTF-8' is not allowed
          Versuche ich es mit UCS-4LE, klappt es aber scheinbar.?.?
          Last edited by narutos; 26-09-2014, 10:26.
          Aufgrund Spams ignoriere ich h3ll.

          Comment


          • #6
            In dem Bereich liegt dieses Zeugs:

            - https://en.wikipedia.org/wiki/Univer...ers#Surrogates

            (Edit: Und ich würde nicht drauf wetten, dass das die einzigen Codepoints bis U+FFFF sind, die „undefiniert“ sind. Siehe nächster Link.)

            Allgemein:

            - https://de.wikipedia.org/wiki/Liste_...odebl%C3%B6cke

            Aber was das Programm macht, weiß ich auch nicht. Keine Ahnung, was da passiert.
            […]
            Soll man für diesen Bereich mit CESU-8 statt mit UCS-4LE arbeiten?
            […]
            Ist das damit gemeint? Das klappt aber nicht:
            […]
            Versuche ich es mit UCS-4LE, klappt es aber scheinbar.?.?
            Wenn du schon nicht weißt, was du programmieren willst: Wir wissen das noch viel weniger.
            Last edited by mermshaus; 26-09-2014, 14:28.

            Comment


            • #7
              Eigentlich will ich was ganz anderes programmieren

              Aber dazu muss ich sichergehen, dass man wirklich jedes UTF-8-Zeichen auch als Array-Schlüssel verwenden darf.

              Ich schau mir die Links jetzt mal an. Danke vorerst.
              Aufgrund Spams ignoriere ich h3ll.

              Comment


              • #8
                Was verleitet dich denn zu der Annahme, dass das nicht der Fall sein könnte? Aus PHP-Sicht sind das, wie h3ll schon sagte, einfach Bytes.

                Edit: ↓ Wobei der Code nur die ersten 65.535 oder so durchgeht. Sicher kannst du dir aber technisch gesehen ohnehin nicht sein, denn vielleicht kann PHP ein Zeichen weder als Key noch als Value verwenden und macht einfach eine "0" draus oder so. Key und Value wären dann noch immer gleich. Das jetzt aber nur mal ganz hypothetisch.
                Last edited by mermshaus; 26-09-2014, 17:46.

                Comment


                • #9
                  OK, also diesen Unicode-Bereich [FONT=Verdana]D800 bis DFFF kann ich also scheinbar vergessen, ist wohl für UTF-8 vollkommen uninteressant.

                  Ich gehe einfach mal davon aus, dass diese Script, das ich von der fremden Seite kopiert habe, passt (auch wenn ichs nicht kapiere, was mir aber vorerst nicht wirklich wichtig ist). Dann bedeutet das wohl, dass man wirklich jedes UTF-8-Zeichen auch in einem Schlüssel verwenden kann.

                  Das Thema ist also erledigt. Danke.
                  [/FONT]
                  Aufgrund Spams ignoriere ich h3ll.

                  Comment

                  Working...
                  X