Ähnliche Namen zusammenfassen

Einklappen
X
 
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

  • Ähnliche Namen zusammenfassen

    Hallo!

    Ich bin neue hier und hab gleich ein (für mich) riesiges Problem!

    Wenn ihr mal zu den Preisvergleichportalen preistrend.de oder geizhals.at sucht seht Ihr dann in der "Detailansicht" des Produktes die Händler aufgelistet. Die meisten Händler haben verschiedene Bezeichnungsformen für das Produkt (Bei einem mit Bindestrich, beim anderen ohne, der nächste hat ein Leerzeichen drinn, usw.)! Wie schaffen die das, dass das Produkt trotz verschiedener Namen richtig zugeordnet wird???

    Bei mir schaut die Situation so aus! Ich bekomme von verschiedenen Händlern .csv-Dateien mit den Produkten. Leider schreiben die meisten ihre Produkte anders als die anderen. Ich muss aber alle zusammengehörenden Produktnamen unter einen Hut bekommen. Wie schaff ich das??? Die ganzen Daten werden bei mir in einer MySQL Tabelle gespeichert!!

    Bitte helft mir!

    Danke

    lg
    Flow

  • #2
    entweder du machst dir die Arbeit und ordnest allen Schreibweisen in einer extra Tabelle eine einheitliche Schreibweise zu, oder du probierst mal die SOUNDEX() Funktion von MySQL
    TBT

    Die zwei wichtigsten Regeln für eine berufliche Karriere:
    1. Verrate niemals alles was du weißt!


    PHP 2 AllPatrizier II Browsergame

    Kommentar


    • #3
      Naja! Das Ziel ist ja gerade dass das ganze automatisch passiert!
      Soundex hat leider den Nachteil das bei z.B. Coolpix A202 und Coolpix A203 das gleiche rauskommt. Sind aber zwei verschiedene Produkte!Und bei ca. 6000 Produkten eines Händlers wirds dann schon schwierig das händisch zu machen!

      Kommentar


      • #4
        ich würde erstmal probieren alle sonderzeichen, leerzeichen und zahlen weg machen, dann Lcase, und zum schluss vielleicht soundex, wenn nötig...
        meine Projekte bestaunen: http://www.kleiza.de

        Kommentar


        • #5
          Die Zahlen sind zur identifizierung ja nötig! Wenn ich die Zahlen wegneheme hab ich dann nur noch dort stehen "Coolpix A..." das kann dann alles sein! Und Soundex geht auch nicht weil zwischen den Produkten A-203 und A-202 ein unterschied besteht, soundex() aber den gleichen Zahlenwert für beide ausgibt!
          Wurde ja alles schon probiert!

          lg
          Flow

          Kommentar


          • #6
            dann bleibt nurnoch das:

            du machst dir die Arbeit und ordnest allen Schreibweisen in einer extra Tabelle eine einheitliche Schreibweise zu


            ich würde nen Formular nehmen, und das ganze per Dropdownfelder machen.
            schnell dürfte es in MSAccess gehen und ODBC zu MySQL,
            da brauchste nicht erst aufwendig Formulare basteln, sondern
            nur einmal den Formualassistenten von Access starten
            TBT

            Die zwei wichtigsten Regeln für eine berufliche Karriere:
            1. Verrate niemals alles was du weißt!


            PHP 2 AllPatrizier II Browsergame

            Kommentar


            • #7
              Mustererkennung

              Ich hab gerade etwas über Mustererkennung gelesen (Pattern Matching)!

              Kann mir das in meinem Fall helfen??? Sprich wenn ich folgende Begriffe in der DB stehen hab:

              Digitalkamera Coolpix A-202
              Fujifilm Coolpix A202
              Fuji Coolpix A 202

              und darin mit der Mustererkennung suche (Suchbegriff: Fujifilm Coolpix A-202) bringt mir das dann alle drei Ergebnisse???

              lg
              Flow

              Kommentar


              • #8
                dann schon sowas wie

                preg_match("#Coolpix A[ -]{0,1}202#iU",$name);

                wie das in MySQL geht, weiß ich nicht.

                Deine Abfragen dürften aber sehr langsam werden, da er die
                regExp ja immer für jede Zeile machen muß
                TBT

                Die zwei wichtigsten Regeln für eine berufliche Karriere:
                1. Verrate niemals alles was du weißt!


                PHP 2 AllPatrizier II Browsergame

                Kommentar

                Lädt...
                X