Werte bzw. Infos aus PDF-Datei auslesen?

Einklappen
X
 
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

  • Werte bzw. Infos aus PDF-Datei auslesen?

    Hi Fanz!
    Habe mit PHP und MySQL ein kleines Intranet für so 'ne Art Dokumentenverwaltung und ähnliches Zeug zusammengeschustert...
    Funzt alles Prima! Der Admin Bereich steht auch... Wunderbert!

    Problem:
    Gibt es eine Möglichkeit aus PDF oder Word Dokumenten Variablen automatisiert auszulesen... ??? *Bahnhof*
    Also nochmal: Habe Dokumente mit einem festen Kopf (Nummer, Name, Beschreibung)! Der Plan: Wird eines dieser Dokumente in ein Verzeichnis kopiert, kommt der automatisierte Prozess X, liest die Informationen aus (1201, Anleitung, BlaBlaBla) und übergibt sie an ein PHP Script?, welches diese Infos dann in die DB schreibt...

    Tja, also ich habe keine Idee, wie ich Variablen aus einer PDF Datei lesen kann... Geht sowas überhaupt??
    Bin für jeden auch noch so klitzekleinen Hinweis dankbar....

    Thanx sofa
    Bye daHell...
    -----------------------------------
    KEEP YOUR HEAD STRAIGHT
    **********************

  • #2
    PDF ist afaik ein Text-Format mit zusätzlichen binären Angaben (Grafiken, benutze Fonts, Angaben über den Autor, Freigaben zum Speichern/Drucken etc.)
    Ich hab leider noch nie ein PDF unter die Lupe genommen, aber irgendwo da drin muss ja auch der Text (hoffentlich im Klartext) stehen.
    Nur wo?

    Wie gut, dass es ein umfangreich dokumentiertes SDK zu Acrobat gibt; in den Docs kann man bestimmt zumindest erfahren, wie man (über die Core API) an den Text rankommt.
    mein Sport: mein Frühstück: meine Arbeit:

    Sämtliche Code-Schnipsel sind im Allgemeinen nicht getestet und werden ohne Gewähr auf Fehlerfreiheit und Korrektheit gepostet.

    Kommentar


    • #3
      Original geschrieben von Titus
      PDF ist afaik ein Text-Format mit zusätzlichen binären Angaben (Grafiken, benutze Fonts, Angaben über den Autor, Freigaben zum Speichern/Drucken etc.)
      das wirst du knicken können. es ist zwar postscript (=ascii bei text) und da könntest du den text auch auslesen, aber durch die möglichkeit der kompression (zip || lzw) stösst du bei den meisten pdfs auf ziemliche hindernisse.
      Kissolino.com

      Kommentar

      Lädt...
      X