Google-Suchvorschläge abfragen

**pascal007** · 17.12.2010, 14:10

Was liefert den file_get_contents($URL) zurück? Unter "nicht sinnvoll" kann sich glaube ich niemand was vorstellen

.

**fireweasel** · 17.12.2010, 22:35

Zitat von beginner123 Beitrag anzeigen

Hallo,

ich möchte die Vorschläge, die Google beim Eintippen von Suchwörtern gibt, abfragen. Dazu habe ich folgendes gefunden:
http://google.com/complete/search?ou...ar&q=Webmaster

Diese URL liefert für beliebige Keywords (statt "Webmaster") eine XML-Datei. Wenn ich diese jedoch mit file_get_contents($URL) abfrage, erhalte ich keine sinnvolle Rückgabe.

Diese "Schnittstelle" kannte ich bisher noch nicht. Gibts dafür keine offizielle Dokumentation?

Irgendeine Idee, wo ich noch suchen könnte? Danke!

Bei mir hat es beim ersten Versuch geklappt ...

Prüfe den Rückgabewert von file_get_contents(). Ist es kein String (sondern FALSE), dann wurde höchstwarscheinlich auch eine (aussagekräftige) Warnung oder Fehlermeldung generiert. Also error_reporting() hochdrehen.

Kommt ein String zurück, dann solltest du ihn mal durch htmlspecialchars() laufen lassen, bevor du ihn im Browser anzeigen lässt.

**beginner123** · 19.12.2010, 11:11

Sorry, "nicht sinnvoll" heißt in diesem Fall leer.

**TobiaZ** · 19.12.2010, 11:52

Und? Mal gedebuggt warum leer?

**fireweasel** · 19.12.2010, 20:08

Zitat von beginner123 Beitrag anzeigen

Sorry, "nicht sinnvoll" heißt in diesem Fall leer.

Für den Fall, dass der tatsächlich leer ist (also Länge gleich 0 Zeichen), schrub ich bereits:

Zitat von firefiesel;

... Kommt ein String zurück, dann solltest du ihn mal durch htmlspecialchars() laufen lassen, bevor du ihn im Browser anzeigen lässt.

Der scheinbar leere String könnte nämlich durchaus Text (XML) enthalten, nur sieht man den nicht ohne weiteres, wenn man ihn einfach so im Browserfenster ausgibt.

**beginner123** · 20.12.2010, 09:02

Ich bekomme z.B. mit dem Titel "Krankenkosten" (URL http://google.com/complete/search?ou...=Krankenkosten) folgende Rückgabe:

Gebe ich das in den Browser ein, erscheint:
<toplevel>
−
<CompleteSuggestion>
<suggestion data="krankenkosten steuerlich absetzbar"/>
<num_queries int="679"/>
</CompleteSuggestion>
−
<CompleteSuggestion>
<suggestion data="krankenkosten absetzbar"/>
<num_queries int="831"/>
</CompleteSuggestion>
usw.

Nach dem Code: $s = file_get_contents($URL);
Länge URLContent (http://google.com/complete/search?ou...rankenkosten): 32

Nach $s = htmlspecialchars($s);
Rückgabe: <?xml version="1.0"?><toplevel/>, Länge: 54

Nach: $doc = DOMDocument::loadXML($s);
Warning: DOMDocument::loadXML() [domdocument.loadxml]: Start tag expected, '<' not found in Entity, line: 1 in /www/htdocs/....php on line 628

und nach: $list = $doc->getElementsByTagName ( "data" );
Fatal error: Call to a member function getElementsByTagName() on a non-object in /www/htdocs/....php on line 629

**AmicaNoctis** · 20.12.2010, 09:42

Hallo,

in deinem Posting fehlt die Frage. Lies dir die Fehlermeldungen durch und prüfe nach, was du gemacht haben könntest, das diese Fehlermeldung verursacht hat. Befreie deinen Code von Altlasten, die du zu Test- und/oder reinen Ausgabezwecken drin hattest und gehe strikt nach dem Handbuch zu DOMDocument vor.

Gruß,

Amica

**beginner123** · 20.12.2010, 10:15

@fireweasel

Bei Dir scheint da ja etwas gültiges zurückgekommen zu sein, oder? Muss man vielleicht irgendwas noch tun, bevor man diese URL mit file_get_contents ausliest?

Danke!

**AmicaNoctis** · 20.12.2010, 12:06

Lies mal nach, was htmlspecialchars eigentlich macht und ob es sinnvoll ist, XML-Code damit zu behandeln, wenn du ihn nicht ausgeben, sondern in ein DOM parsen willst.

**beginner123** · 20.12.2010, 14:39

@AmicaNoctis

Das war nur ein Versuch aufgrund des Hinweises von fireweasel.

Ich habe jetzt folgenden Code vorgeschaltet:

Code:

$snoopy = new Snoopy;
$snoopy->fetch($urlend);
$hdrs = @get_headers($urlend);
return is_array($hdrs) ? preg_match('/^HTTP\\/\\d+\\.\\d+\\s+2\\d\\d\\s+.*$/',$hdrs[0]) : false;

Das hat mir schon mal geholfen, andere URLs zu lesen. Aber hat leider in diesem Fall nichts gebracht.

So bekomme ich für folgenden Code weiterhin diese Ausgabe:

Code:

      echo "URL $URL<br>";
      $res = url_check2($URL);
      if (! ($res == false) ) {
         $seiteninhalt = file_get_contents($URL);
         echo "Länge URLContent ($URL): " . strlen($seiteninhalt) . "<br>";
         echo "Rückgabe: $seiteninhalt, Länge: " . strlen($seiteninhalt) . "<br>";
         $doc  = DOMDocument::loadXML($seiteninhalt);
         $list = $doc->getElementsByTagName ( "data" );
         $nb = $list->length;
         echo "Länge NodeList: $nb<br>";

Länge URLContent (http://google.com/complete/search?ou...rankenkosten): 32
Rückgabe: , Länge: 32

Also mit 32 Zeichen irgendein Rückgabewert, aber auf keinen Fall das, was das Kopieren der URL im Browser bringt. Kann das am Format liegen, dass es eine XML-Datei ist, die man dort zurückbekommt? Und falls ja, wäre ich für jeden Hinweis, eine XML-Datei richtig zu lesen, denkbar.

**ezkimo** · 21.12.2010, 10:13

Also Folgendes habe ich gerade herausgefunden:

Zunächst kannst Du auf Dein file_get_contents() komplett verzichten, da das DomDocument Objekt eigene Methoden liefert, die Dir diesen Schritt ersparen. Schaue hier einfach mal bei PHP: DOMDocument::load - Manual nach.

Dein zweiter Fehler ist, dass Du versuchst Elemente mit dem Tagname "data" zu ermitteln. Das zurückgelieferte XML Schema beinhaltet keine Tags mit dem Namen "data". Es sind lediglich "suggestion" Tags mit dem Attribut "data" vorhanden. Erkundige Dich, wie man mit dem DomDocument Objekt Attribute ermittelt.

Das sind aber Kleinigkeiten. Das größere Problem ist, dass das gelieferte XML Schema anhand des Stichwortes "Krankenkosten" nur ein leeres Element "toplevel" via DomDocument ausgelesen werden kann. Dieses XML Schema ist genau 32 Zeichen lang. Nehme ich ein Stichwort "Webdesign" kann das komplette XML Schema gelesen werden. Da ich jetzt die Dokumentation nicht finden konnte, weiss ich nicht, ob bestimmte Stichwörter nicht erlaubt sind oder dergleichen.

Google-Suchvorschläge abfragen