hochgeladene PDF's indizieren

Einklappen
X
 
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

  • hochgeladene PDF's indizieren

    Hallo,

    kann ich PDF's, die ich via php auf einen Server hochlade, beim hochspielen indizieren, d.h., den Inhalt auslesen, um ihn zwecks Stichwortsuche in einer DB zu speichern?

    Gruß
    Micha

  • #2
    besser >>> www.htdig.org

    da werden sie geholfen. der kann auch word-docs parsen...

    beebob

    Kommentar


    • #3
      Auweia,

      ich verstehe kein Wort, kein englisches jedenfalls...verstehe nichtmals, worum es dort geht.

      Geht es etwas deutscher? :-)

      Gruß
      Micha

      Kommentar


      • #4
        ok.
        htdig ist ein proggi, welches du als cgi verwenden kannst.

        du kannst htdig dazu veranlassen, im webroot dateien zu parsen und die wörter in die (htdig-interne) datenbank speichern. du brauchst somit also nicht mehr irgendwas in ner mysql oder sonstigen datenbank zu speichern.

        zudem kannst du pdfs und weitere formate parsen lassen.

        du kannst htdig ja mal hier in aktion sehen:

        http://www.vw-in-johannesburg.de

        such oben rechts mal z.b. nach dem wort 'volkswagen'.

        der output von htdig erfolgt volkommen automatisch und kann kann bequem in php eingebunden werden.

        ach ja: mit dynamischen seiten kommt htdig auch sehr gut klar!

        du solltest dich darin einarbeiten, da das einer der saubersten möglichkeiten einer seitenweiten-suche darstellt.

        gruss


        beebob

        ps: es gibt bestimmt eine riesen htdig-community auf deutsch. such einfach bei www.google.de/linux!

        Kommentar


        • #5
          Vielen Dank für die verständliche Antwort.

          Ich werde versuchen mich einzuarbeiten.

          Gruß
          Micha

          Kommentar


          • #6
            wenn du fragen zur installation/konfiguration hast, dann frag einfach!

            Kommentar


            • #7
              Hi,

              das Thema ist über ein Jahr alt, aber besser als ein neues anzufangen :-)

              Dabei sehe ich irgendwie ein Problem:

              Benutzer loggt sich in ein PHP-System ein, er darf aber nicht alle Dateien durchsuchen, wie schränke ich es denn in htdig ein? Geb ich ein Array von den Dateien, die er durchsuchen soll? Die Dateien, die gefunden werden dürfen sollten dann eher als Linkergebnis wie: gehtfile.php?file_id=n

              Hm, ein kleiner Tipp würde mir helfen. Danke :-)

              Grüsse

              Fundamentum

              Kommentar

              Lädt...
              X