Hallo,
ich stehe im Moment vor der Aufgabe den Usern einer Website die möglichkeit zu bieten ein Dokument anzugeben (upzuloaden) und anschliessend die Anzahl der Wörter des Dokuments zu sehen.
Es soll sich hierbei um die Dateiformate .doc, .txt, .pdf, .odt, sowie .htm(l) handeln.
Als ersten Ansatz und direkten Angriff dachte ich mit einer simplen Zählung der leerzeichen ans Ziel zu kommen, jedoch sind die Ergebnisse nach der Berechnung alles nur nicht Korrekt. Sofern sich das Dokument wie .pdf überhaupt öffnen lässt.
Mittlerweile denke ich das der Weg folgender wäre (und hier bin ich mir nicht sicher, weder in der Theorie, noch in der Ausführung):
Dokument Uploaden --> Je nach Dateityp parsen --> Konvertieren nach text --> text "schrumpfen" (alle leerzeichen falls mehrere hintereinander folgen entfernen) --> endlich die Zählung (spaces od. wörter falls das auch gleich geht).
Kennt jemand eine "schlüsselfertige Lösung" für das Problem, bzw hat sonst eine Idee die mich dem Ziel näher bringen könnte.
Durchfaste seit ein paar Tagen alle mir bekannten scriptresourcen und ähnliches, aber entweder bin ich schon betriebsblind oder bewege mich überhaupt in die falschen Richtung.
Danke & LG Rob
ich stehe im Moment vor der Aufgabe den Usern einer Website die möglichkeit zu bieten ein Dokument anzugeben (upzuloaden) und anschliessend die Anzahl der Wörter des Dokuments zu sehen.
Es soll sich hierbei um die Dateiformate .doc, .txt, .pdf, .odt, sowie .htm(l) handeln.
Als ersten Ansatz und direkten Angriff dachte ich mit einer simplen Zählung der leerzeichen ans Ziel zu kommen, jedoch sind die Ergebnisse nach der Berechnung alles nur nicht Korrekt. Sofern sich das Dokument wie .pdf überhaupt öffnen lässt.
Mittlerweile denke ich das der Weg folgender wäre (und hier bin ich mir nicht sicher, weder in der Theorie, noch in der Ausführung):
Dokument Uploaden --> Je nach Dateityp parsen --> Konvertieren nach text --> text "schrumpfen" (alle leerzeichen falls mehrere hintereinander folgen entfernen) --> endlich die Zählung (spaces od. wörter falls das auch gleich geht).
Kennt jemand eine "schlüsselfertige Lösung" für das Problem, bzw hat sonst eine Idee die mich dem Ziel näher bringen könnte.
Durchfaste seit ein paar Tagen alle mir bekannten scriptresourcen und ähnliches, aber entweder bin ich schon betriebsblind oder bewege mich überhaupt in die falschen Richtung.
Danke & LG Rob
Kommentar