Mit preg_match_all nach Pattern suchen

Einklappen
X
 
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

  • Mit preg_match_all nach Pattern suchen

    Hallo,

    um mein Problem zu beschreiben, bitte ich, Euch den folgenden Text vorzustellen:
    blablablablablablablablablablablablabla{/.*/is}blablablablabla bla blabla blabla blabla blabla blabla {/\d{1,2}/is} blabla blabla blabla blabla blabla blabla blabla
    blabla blabla {/[A-Z]*?/is} blablablabla
    jetzt möchte ich mit preg_match_all alle durch die geschweiften Klammern eingeschlossenen regulären Ausdrücke auslesen.
    Ich nutze hier:
    PHP-Code:
    $pattern '/\{.*?\}/is'
    Das liefert folgendes falsches Ergebnis:
    Code:
    [FONT=Courier New]Array ( [0] => Array ( [0] => {/.*/is} [1] => {/\d{1,2} [2] => {/[A-Z]*?/is} ) )[/FONT]
    entferne ich das ?, also:
    PHP-Code:
    $pattern '/\{.*\}/is'
    ergibt ...
    Code:
    [FONT=Courier New]Array ( [0] => Array ( [0] => {/.*/is}blablablablabla {/\d{1,2}/is} blabla blabla {/[A-Z]*?/is} ) )[/FONT]
    ... ebenfalls nicht das gewünschte Ergebnis! grrrr!

    Ich hoffe, Ihr könnt mir folgen und habt mein Problem erkannt.

    Wie kann ich $pattern verändern, um alle regulären Ausdrücke, also auch die inklusive geschweifter Klammern, vollständig auszulesen?
    Zuletzt geändert von TobiaZ; 26.01.2010, 17:15. Grund: code gekürzt. sowas ist doch unnötig!

  • #2
    Edit: sorry, hab was übersehen. Korrektur:

    Nimm mal die schließende geschweifte Klammer nach das /is, bzw. gleich dieses Pattern: '<\\{/.+?/is\\}>s'
    Zuletzt geändert von AmicaNoctis; 26.01.2010, 16:51.
    [COLOR="DarkSlateGray"]Hast du die [COLOR="DarkSlateGray"]Grundlagen zur Fehlersuche[/color] gelesen? Hast du Code-Tags benutzt?
    Hast du als URL oder Domain-Beispiele example.com, example.net oder example.org benutzt?
    Super, danke!
    [/COLOR]

    Kommentar


    • #3
      Ok, schonmal danke für die schnelle Antwort.

      Leider habe ich in der Beschreibung etwas vergessen. Die zu suchenden regulären Ausdrücke werden vom Benutzer selbst eingetragen.

      Können also auch andere (z. B. ~.*~s) sein. Delimiter und Modifier sind nicht vorgegeben.

      Noch eine Idee?

      Kommentar


      • #4
        Aber die geschweiften Klammern sind immer da, oder?

        PHP-Code:
        '<\\{(.).+?(\\1|[}\\])>])[imseuxADJSUX]*\\}>s' 
        (nicht getestet)
        Zuletzt geändert von AmicaNoctis; 26.01.2010, 18:34.
        [COLOR="DarkSlateGray"]Hast du die [COLOR="DarkSlateGray"]Grundlagen zur Fehlersuche[/color] gelesen? Hast du Code-Tags benutzt?
        Hast du als URL oder Domain-Beispiele example.com, example.net oder example.org benutzt?
        Super, danke!
        [/COLOR]

        Kommentar


        • #5
          Die äußeren Klammern schon. Innerhalb des zu suchenden Ausdrucks können geschweifte Klammern vorkommen (natürlich auch mehrmals) oder nicht.

          Also Ziel meines Scripts ist es, dass der Benutzer einen Text blablabla mit Platzhaltern {} eingeben kann (wie in meinem ersten Beispiel).
          Die Platzhalter enthalten in der Regel Spaltennamen einer MySQL-Tabelle (z. B. {product.product_desc}), die durch mein Script entsprechend ersetzt werden. Das funktioniert bisweilen auch ohne Probleme.

          Nun kann mein Script aber auch schon mehr. Z. B. führt {product.product_in_stock[if]:0,1,product.product_in_stock} dazu, dass nicht der tatsächlich Wert der MySQL-Zelle ausgegeben wird, sondern vorher eine If-Then-Else Funktion durchlaufen wird. Auch das funktioniert wunderbar.

          Jetzt soll das Script erweitert werden, so dass z. B. {product.product_desc[regexp]:/ean:?#?(?P<hit>\\d{1,13})#?/is} nur die EAN ausgibt, anstelle der kompletten Produktbeschreibung.
          Die Funktion ist fertig und funktioniert auch wunderbar, solange - wie in obigem Beispiel keine schließenden geschweiften Klammern innerhalb des Platzhalters sind.

          Ich habe vorher auf diese Beschreibung verzeichtet, da ich dass Problem eigentlich nicht verkomplizieren wollte.

          Noch eine Idee?

          Kommentar


          • #6
            Jetzt soll das Script erweitert werden, so dass z. B. {product.product_desc[regexp]:/ean:?#?(?P<hit>\\d{1,13})#?/is} nur die EAN ausgibt, anstelle der kompletten Produktbeschreibung.
            Ganz ehlich, hat da nicht jemand das Datenbankdesign versaut?

            Ich habe vorher auf diese Beschreibung verzeichtet, da ich dass Problem eigentlich nicht verkomplizieren wollte.
            Statt dessen hast du es zu stark vereinfacht.

            Amicas Tipp funktioniert also nicht?

            Für meinen Geschmack ist das Template-System da viel zu kompliziert. Am einfachsten wäre es neue, EINDEUTIGE Delimiter für die Platzhalter zu verwenden.

            Ansonsten sehe ich hier alternativ den Einsatz eines Parsers.

            Kommentar


            • #7
              Zitat von ichwillservice Beitrag anzeigen
              Noch eine Idee?
              Ja, probier den RegEx aus, den ich gepostet habe und sag uns, ob er das tut, was du willst oder was er falsch macht.
              [COLOR="DarkSlateGray"]Hast du die [COLOR="DarkSlateGray"]Grundlagen zur Fehlersuche[/color] gelesen? Hast du Code-Tags benutzt?
              Hast du als URL oder Domain-Beispiele example.com, example.net oder example.org benutzt?
              Super, danke!
              [/COLOR]

              Kommentar


              • #8
                Vielen Dank für die Vorschläge.

                Zitat von TobiaZ Beitrag anzeigen
                Ganz ehlich, hat da nicht jemand das Datenbankdesign versaut?
                Sag das mal den Virtuemart Programmierern!

                Zitat von TobiaZ Beitrag anzeigen
                Statt dessen hast du es zu stark vereinfacht.
                Ich denke halt manchmal zu kompliziert, sorry!

                Zitat von TobiaZ Beitrag anzeigen
                Amicas Tipp funktioniert also nicht?
                Leider nein. Hier die Testdaten:
                PHP-Code:
                $pattern '/\{(.).+?(\1|[}\])>])[imseuxADJSUX]*\}/s'
                Code:
                blablabla{~.*?~s}blablabla{product.product_desc[regex]:/ean:?#?(?P<hit>\\d{1,13})#?/is}blablabla{product.test}blabla
                Ergebnis:
                Code:
                [FONT=Courier New]Array[/FONT]
                [FONT=Courier New]([/FONT][INDENT][FONT=Courier New][0] => Array[/FONT][INDENT][FONT=Courier New]([/FONT][INDENT][FONT=Courier New][0] => {~.*?~s}[/FONT]
                [/INDENT][FONT=Courier New])[/FONT]
                [/INDENT][FONT=Courier New][1] => Array[/FONT][INDENT][FONT=Courier New]([/FONT][INDENT][FONT=Courier New][0] => ~[/FONT]
                [/INDENT][FONT=Courier New])[/FONT]
                [/INDENT][FONT=Courier New][2] => Array[/FONT][INDENT][FONT=Courier New]([/FONT][INDENT][FONT=Courier New][0] => ~[/FONT]
                [/INDENT][FONT=Courier New])[/FONT]
                [/INDENT][/INDENT][FONT=Courier New])[/FONT]
                Zitat von TobiaZ Beitrag anzeigen
                Für meinen Geschmack ist das Template-System da viel zu kompliziert. Am einfachsten wäre es neue, EINDEUTIGE Delimiter für die Platzhalter zu verwenden.
                Bisher sehe ich auch nur den Ausweg, die Delimiter für die Platzhalter einfach zu verdoppeln (z. B. {{Inhalte, wie{sollten dann auch} gehen}}).
                Zitat von TobiaZ Beitrag anzeigen
                Ansonsten sehe ich hier alternativ den Einsatz eines Parsers.
                Vielleicht denke ich jetzt wieder zu kompliziert, aber das scheint mir ein zu großer Aufwand zu sein.
                Zitat von AmicaNoctis Beitrag anzeigen
                Ja, probier den RegEx aus, den ich gepostet habe und sag uns, ob er das tut, was du willst oder was er falsch macht.
                Sorry, in meinem Erklärungswahn habe ich den Ausgang des Tests verschwiegen.

                Weiter sehe ich ein Problem, wenn innerhalb des Platzhalters mehrere Quantifier dieser Art auftauchen. So müsste man dann wohl auch noch mit einer Rekursion arbeiten. Aber da hört mein Horizont irgendwie auf. Ich bin ja froh, als blutiger Einsteiger mit Größenwahn überhaupt schon solch ein Script lauffähig auf die Beine gestellt zu haben.

                Also werde ich das Script jetzt erstmal testweise auf doppelte Delimiter für die Platzhalter aufpeppen und meine Erfahrungen hier posten. Falls noch jemand eine andere Idee hat, immer her damit!

                Nochmals danke und viele Grüße

                Kommentar


                • #9
                  Zitat von ichwillservice Beitrag anzeigen
                  Leider nein. Hier die Testdaten:
                  PHP-Code:
                  $pattern '/\{(.).+?(\1|[}\])>])[imseuxADJSUX]*\}/s'
                  Code:
                  blablabla{~.*?~s}blablabla{product.product_desc[regex]:/ean:?#?(?P<hit>\\d{1,13})#?/is}
                  blablabla{product.test}blabla
                  Der matcht doch perfekt und das was nach dem {~.*?~s} kommt, erfüllt die von dir anfangs vorgegebenen Kriterien nicht. Erzähl doch mal, wie so ein RegEx nun aussehen kann, also in welcher Form er vorkommt.

                  Edit: Warum hast du den eigentlich verändert und jetzt wieder nur einfache Backslashes drin?

                  Edit2: Also dann halt
                  PHP-Code:
                  '<\\{([^}]+?\\[regex\\]:)?(.).+?(\\1|[}\\])>])[imseuxADJSUX]*\\}>s' 
                  Zuletzt geändert von AmicaNoctis; 26.01.2010, 23:04.
                  [COLOR="DarkSlateGray"]Hast du die [COLOR="DarkSlateGray"]Grundlagen zur Fehlersuche[/color] gelesen? Hast du Code-Tags benutzt?
                  Hast du als URL oder Domain-Beispiele example.com, example.net oder example.org benutzt?
                  Super, danke!
                  [/COLOR]

                  Kommentar


                  • #10
                    Zitat von AmicaNoctis Beitrag anzeigen
                    Der matcht doch perfekt und das was nach dem {~.*?~s} kommt, erfüllt die von dir anfangs vorgegebenen Kriterien nicht. Erzähl doch mal, wie so ein RegEx nun aussehen kann, also in welcher Form er vorkommt.
                    Da hab ich wohl ne ziemliche Verwirrung reingebracht. Hier mal ein paar Platzhalter, wie Sie auftauchen können:
                    {product.product_desc}
                    {product.product_desc[regex]:/ean:?#?(?P<hit>\d{1,13})#?/is}
                    {product.product_in_stock[if]roduct.product_in_stock=0,1,product.product_in_stock}
                    {product.product_price[regex]:~\d{0,5}\.\d{0,2}~s}

                    Zitat von AmicaNoctis Beitrag anzeigen
                    Edit: Warum hast du den eigentlich verändert und jetzt wieder nur einfache Backslashes drin?
                    Weil ich in der PHP-Variable den Maskierungs-Backslash nicht nochmal maskieren muss, soweit ich weiß.

                    Kommentar


                    • #11
                      Zitat von ichwillservice Beitrag anzeigen
                      Weil ich in der PHP-Variable den Maskierungs-Backslash nicht nochmal maskieren muss, soweit ich weiß.
                      In vielen Fällen ist PHP kulant, so dass trotzdem funktioniert, aber richtig ist es deswegen noch lange nicht und einen Backslash in einem Text kannst du nach deiner Theorie auch nicht matchen.

                      Der neue Ausdruck (siehe letztes Posting) funktioniert jetzt oder nicht?
                      [COLOR="DarkSlateGray"]Hast du die [COLOR="DarkSlateGray"]Grundlagen zur Fehlersuche[/color] gelesen? Hast du Code-Tags benutzt?
                      Hast du als URL oder Domain-Beispiele example.com, example.net oder example.org benutzt?
                      Super, danke!
                      [/COLOR]

                      Kommentar


                      • #12
                        Zitat von AmicaNoctis Beitrag anzeigen
                        In vielen Fällen ist PHP kulant, so dass trotzdem funktioniert, aber richtig ist es deswegen noch lange nicht und einen Backslash in einem Text kannst du nach deiner Theorie auch nicht matchen.
                        Das habe ich verstanden. Einen zu matchenden Backslash muss ich natürlich maskieren. Aber den Backslash vor der zu matchenden { darf nicht maskiert werden. Auf jeden Fall funktioniert dann mein Matching nicht mehr.
                        Zitat von AmicaNoctis Beitrag anzeigen
                        Der neue Ausdruck (siehe letztes Posting) funktioniert jetzt oder nicht?
                        Nein, das Ergebnis kannst Du Dir unter folgendem Link ansehen:
                        Der RegExp-Evaluator - RegExp-Evaluator - Ergebnis

                        Kommentar


                        • #13
                          PHP-Code:
                          '<\\{([^}]+?\\[regex\\]:)?(?P<hit>([^a-zA-Z\\d\\s]).+?(\\3|[}\\])\\>])[imseuxADJSUX]*)\\}>s' 
                          Getestet und funktioniert. Der RegExp-Evaluator wird es zwar nicht schlucken, aber PHP selbst tut es.
                          [COLOR="DarkSlateGray"]Hast du die [COLOR="DarkSlateGray"]Grundlagen zur Fehlersuche[/color] gelesen? Hast du Code-Tags benutzt?
                          Hast du als URL oder Domain-Beispiele example.com, example.net oder example.org benutzt?
                          Super, danke!
                          [/COLOR]

                          Kommentar


                          • #14
                            Zitat von AmicaNoctis Beitrag anzeigen
                            PHP-Code:
                            '<\\{([^}]+?\\[regex\\]:)?(?P<hit>([^a-zA-Z\\d\\s]).+?(\\3|[}\\])\\>])[imseuxADJSUX]*)\\}>s' 
                            Getestet und funktioniert. Der RegExp-Evaluator wird es zwar nicht schlucken, aber PHP selbst tut es.
                            OK. Das ist schon mal ein Anfang. Nur leider werden jetzt die normalen Platzhalter, wie
                            {product.product_desc}
                            {product.product_in_stock[if]roduct.product_in_stock=0,1,product.product_in_stock}
                            nicht mehr gematcht. Das ist leider nicht akzeptabel.

                            Ich bin gerade dabei, die Delimiter für Platzhalter zu verdoppeln. Also zum Beispiel:
                            {{product.product_desc}}
                            {{product.product_desc[regex]:/ean:?#?(?P<hit>\d{1,13})#?/is}}
                            {{product.product_in_stock[if]roduct.product_in_stock=0,1,product.product_in_stock}}
                            {{product.product_price[regex]:~\d{0,5}\.\d{0,2}~s}}
                            Dann funktioniert mein Script und ich muss nur einige $pattern ändern.

                            Kommentar


                            • #15
                              Ich denke, du wolltest nur reguläre Ausdrücke erfassen? Naja egal, das wirst du ja jetzt selber hinbekommen. Ich hatte trotzdem mit etwas mehr Begeisterung gerechnet, aber naja...
                              [COLOR="DarkSlateGray"]Hast du die [COLOR="DarkSlateGray"]Grundlagen zur Fehlersuche[/color] gelesen? Hast du Code-Tags benutzt?
                              Hast du als URL oder Domain-Beispiele example.com, example.net oder example.org benutzt?
                              Super, danke!
                              [/COLOR]

                              Kommentar

                              Lädt...
                              X