Hi Leute,
ich möchte eine Suchmachine für eine Webseite schreiben.
--> ohne boolsche Algebra, einfacher Zeichenkettenvergleich.
...hatte hier im Forum auch schon ne Super Hilfe bekommen.
Doch ein paar Fragen zur Performance und zum Aufbau einer
professionellen Suche hätte ich noch.
Bisher ist mein Plan:
nach der Eingabe des Suchstrings werden alle Seiten
eingelesen html_gestrippt und getolowercased um dann
mit strstr Suchwort und Inhalt zu vergleichen.
Doch wie schaut es mit der Performance aus?
(ca. 100 sollen eingelesen und durchsucht werden)
Wäre da eine Indezierung besser?
Und wenn ja was wäre da ein Ansatz den ich verfolgen könnte,
eine Datenbank steht dafür leider nicht zur Verfügung.
Ich hab leider keine wirklich gute Idee nur einen
Ansatz mit haken, für die Indezierung:
Die gesammte Seite wird nach jeder Aktualisierung
neu geparst.
- Dabei wird jedes Wort als Schlüssel in einem Array
gespeichert.
- Wenn nun ein längeres Wort auftaucht dann ersetzt
es das kürzere ($index[auto] wird von $index[autobahn]
ersetzt
>>> Das Problem ist dann das ich die Schlüssel nicht mehr
mit Regex ansprechen kann und somit: "auto" nicht mehr
"autobahn" findet.
Ich weiss nicht mehr weiter und habe irgendwie das Gefühl
auf dem Holzweg zu sein.
Über ein paar Tips bzw. Ansätze würde ich mich sehr freuen,
nette Grüße, hOk
ich möchte eine Suchmachine für eine Webseite schreiben.
--> ohne boolsche Algebra, einfacher Zeichenkettenvergleich.
...hatte hier im Forum auch schon ne Super Hilfe bekommen.
Doch ein paar Fragen zur Performance und zum Aufbau einer
professionellen Suche hätte ich noch.
Bisher ist mein Plan:
nach der Eingabe des Suchstrings werden alle Seiten
eingelesen html_gestrippt und getolowercased um dann
mit strstr Suchwort und Inhalt zu vergleichen.
Doch wie schaut es mit der Performance aus?
(ca. 100 sollen eingelesen und durchsucht werden)
Wäre da eine Indezierung besser?
Und wenn ja was wäre da ein Ansatz den ich verfolgen könnte,
eine Datenbank steht dafür leider nicht zur Verfügung.
Ich hab leider keine wirklich gute Idee nur einen
Ansatz mit haken, für die Indezierung:
Die gesammte Seite wird nach jeder Aktualisierung
neu geparst.
- Dabei wird jedes Wort als Schlüssel in einem Array
gespeichert.
- Wenn nun ein längeres Wort auftaucht dann ersetzt
es das kürzere ($index[auto] wird von $index[autobahn]
ersetzt
>>> Das Problem ist dann das ich die Schlüssel nicht mehr
mit Regex ansprechen kann und somit: "auto" nicht mehr
"autobahn" findet.
Ich weiss nicht mehr weiter und habe irgendwie das Gefühl
auf dem Holzweg zu sein.
Über ein paar Tips bzw. Ansätze würde ich mich sehr freuen,
nette Grüße, hOk
Kommentar