Google-Suchvorschläge abfragen

Collapse
X
 
  • Filter
  • Time
  • Show
Clear All
new posts

  • Google-Suchvorschläge abfragen

    Hallo,

    ich möchte die Vorschläge, die Google beim Eintippen von Suchwörtern gibt, abfragen. Dazu habe ich folgendes gefunden:
    http://google.com/complete/search?ou...ar&q=Webmaster

    Diese URL liefert für beliebige Keywords (statt "Webmaster") eine XML-Datei. Wenn ich diese jedoch mit file_get_contents($URL) abfrage, erhalte ich keine sinnvolle Rückgabe.
    Ich habe in der Google Web Search API gesucht, aber ich glaube, das beinhaltet auch nicht das, was ich möchte.

    Irgendeine Idee, wo ich noch suchen könnte? Danke!

  • #2
    Was liefert den file_get_contents($URL) zurück? Unter "nicht sinnvoll" kann sich glaube ich niemand was vorstellen .

    Comment


    • #3
      Originally posted by beginner123 View Post
      Hallo,

      ich möchte die Vorschläge, die Google beim Eintippen von Suchwörtern gibt, abfragen. Dazu habe ich folgendes gefunden:
      http://google.com/complete/search?ou...ar&q=Webmaster

      Diese URL liefert für beliebige Keywords (statt "Webmaster") eine XML-Datei. Wenn ich diese jedoch mit file_get_contents($URL) abfrage, erhalte ich keine sinnvolle Rückgabe.
      Diese "Schnittstelle" kannte ich bisher noch nicht. Gibts dafür keine offizielle Dokumentation?

      Irgendeine Idee, wo ich noch suchen könnte? Danke!
      Bei mir hat es beim ersten Versuch geklappt ...

      Prüfe den Rückgabewert von file_get_contents(). Ist es kein String (sondern FALSE), dann wurde höchstwarscheinlich auch eine (aussagekräftige) Warnung oder Fehlermeldung generiert. Also error_reporting() hochdrehen.

      Kommt ein String zurück, dann solltest du ihn mal durch htmlspecialchars() laufen lassen, bevor du ihn im Browser anzeigen lässt.
      Klingon function calls do not have “parameters”‒they have “arguments”‒and they always win them!

      Comment


      • #4
        Sorry, "nicht sinnvoll" heißt in diesem Fall leer.

        Comment


        • #5
          Und? Mal gedebuggt warum leer?

          Comment


          • #6
            Originally posted by beginner123 View Post
            Sorry, "nicht sinnvoll" heißt in diesem Fall leer.
            Für den Fall, dass der tatsächlich leer ist (also Länge gleich 0 Zeichen), schrub ich bereits:

            Originally posted by firefiesel;
            ... Kommt ein String zurück, dann solltest du ihn mal durch htmlspecialchars() laufen lassen, bevor du ihn im Browser anzeigen lässt.
            Der scheinbar leere String könnte nämlich durchaus Text (XML) enthalten, nur sieht man den nicht ohne weiteres, wenn man ihn einfach so im Browserfenster ausgibt.
            Klingon function calls do not have “parameters”‒they have “arguments”‒and they always win them!

            Comment


            • #7
              Ich bekomme z.B. mit dem Titel "Krankenkosten" (URL http://google.com/complete/search?ou...=Krankenkosten) folgende Rückgabe:

              Gebe ich das in den Browser ein, erscheint:
              <toplevel>

              <CompleteSuggestion>
              <suggestion data="krankenkosten steuerlich absetzbar"/>
              <num_queries int="679"/>
              </CompleteSuggestion>

              <CompleteSuggestion>
              <suggestion data="krankenkosten absetzbar"/>
              <num_queries int="831"/>
              </CompleteSuggestion>
              usw.

              Nach dem Code: $s = file_get_contents($URL);
              Länge URLContent (http://google.com/complete/search?ou...rankenkosten): 32

              Nach $s = htmlspecialchars($s);
              Rückgabe: <?xml version="1.0"?><toplevel/>, Länge: 54

              Nach: $doc = DOMDocument::loadXML($s);
              Warning: DOMDocument::loadXML() [domdocument.loadxml]: Start tag expected, '<' not found in Entity, line: 1 in /www/htdocs/....php on line 628

              und nach: $list = $doc->getElementsByTagName ( "data" );
              Fatal error: Call to a member function getElementsByTagName() on a non-object in /www/htdocs/....php on line 629

              Comment


              • #8
                Hallo,

                in deinem Posting fehlt die Frage. Lies dir die Fehlermeldungen durch und prüfe nach, was du gemacht haben könntest, das diese Fehlermeldung verursacht hat. Befreie deinen Code von Altlasten, die du zu Test- und/oder reinen Ausgabezwecken drin hattest und gehe strikt nach dem Handbuch zu DOMDocument vor.

                Gruß,

                Amica
                [COLOR="DarkSlateGray"]Hast du die [COLOR="DarkSlateGray"]Grundlagen zur Fehlersuche[/color] gelesen? Hast du Code-Tags benutzt?
                Hast du als URL oder Domain-Beispiele example.com, example.net oder example.org benutzt?
                Super, danke!
                [/COLOR]

                Comment


                • #9
                  @fireweasel

                  Bei Dir scheint da ja etwas gültiges zurückgekommen zu sein, oder? Muss man vielleicht irgendwas noch tun, bevor man diese URL mit file_get_contents ausliest?

                  Danke!

                  Comment


                  • #10
                    Lies mal nach, was htmlspecialchars eigentlich macht und ob es sinnvoll ist, XML-Code damit zu behandeln, wenn du ihn nicht ausgeben, sondern in ein DOM parsen willst.
                    [COLOR="DarkSlateGray"]Hast du die [COLOR="DarkSlateGray"]Grundlagen zur Fehlersuche[/color] gelesen? Hast du Code-Tags benutzt?
                    Hast du als URL oder Domain-Beispiele example.com, example.net oder example.org benutzt?
                    Super, danke!
                    [/COLOR]

                    Comment


                    • #11
                      @AmicaNoctis

                      Das war nur ein Versuch aufgrund des Hinweises von fireweasel.

                      Ich habe jetzt folgenden Code vorgeschaltet:
                      Code:
                      $snoopy = new Snoopy;
                      $snoopy->fetch($urlend);
                      $hdrs = @get_headers($urlend);
                      return is_array($hdrs) ? preg_match('/^HTTP\\/\\d+\\.\\d+\\s+2\\d\\d\\s+.*$/',$hdrs[0]) : false;
                      Das hat mir schon mal geholfen, andere URLs zu lesen. Aber hat leider in diesem Fall nichts gebracht.

                      So bekomme ich für folgenden Code weiterhin diese Ausgabe:

                      Code:
                            echo "URL $URL<br>";
                            $res = url_check2($URL);
                            if (! ($res == false) ) {
                               $seiteninhalt = file_get_contents($URL);
                               echo "Länge URLContent ($URL): " . strlen($seiteninhalt) . "<br>";
                               echo "Rückgabe: $seiteninhalt, Länge: " . strlen($seiteninhalt) . "<br>";
                               $doc  = DOMDocument::loadXML($seiteninhalt);
                               $list = $doc->getElementsByTagName ( "data" );
                               $nb = $list->length;
                               echo "Länge NodeList: $nb<br>";
                      Länge URLContent (http://google.com/complete/search?ou...rankenkosten): 32
                      Rückgabe: , Länge: 32

                      Also mit 32 Zeichen irgendein Rückgabewert, aber auf keinen Fall das, was das Kopieren der URL im Browser bringt. Kann das am Format liegen, dass es eine XML-Datei ist, die man dort zurückbekommt? Und falls ja, wäre ich für jeden Hinweis, eine XML-Datei richtig zu lesen, denkbar.

                      Comment


                      • #12
                        Also Folgendes habe ich gerade herausgefunden:

                        Zunächst kannst Du auf Dein file_get_contents() komplett verzichten, da das DomDocument Objekt eigene Methoden liefert, die Dir diesen Schritt ersparen. Schaue hier einfach mal bei PHP: DOMDocument::load - Manual nach.

                        Dein zweiter Fehler ist, dass Du versuchst Elemente mit dem Tagname "data" zu ermitteln. Das zurückgelieferte XML Schema beinhaltet keine Tags mit dem Namen "data". Es sind lediglich "suggestion" Tags mit dem Attribut "data" vorhanden. Erkundige Dich, wie man mit dem DomDocument Objekt Attribute ermittelt.

                        Das sind aber Kleinigkeiten. Das größere Problem ist, dass das gelieferte XML Schema anhand des Stichwortes "Krankenkosten" nur ein leeres Element "toplevel" via DomDocument ausgelesen werden kann. Dieses XML Schema ist genau 32 Zeichen lang. Nehme ich ein Stichwort "Webdesign" kann das komplette XML Schema gelesen werden. Da ich jetzt die Dokumentation nicht finden konnte, weiss ich nicht, ob bestimmte Stichwörter nicht erlaubt sind oder dergleichen.
                        Last edited by ezkimo; 21-12-2010, 11:21.
                        MM Newmedia | MeinBlog

                        Comment

                        Working...
                        X