Website Crawler / Migration nach Excel/SQL

Einklappen
X
 
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

  • Website Crawler / Migration nach Excel/SQL

    Hi,

    ich habe eine ganz alte stark verschachtelte Webseite noch auf HTML Basis, die ich nun in ein CMS überführen möchte.

    Die HTML-Daten bestehen immer aus den Metatags, aus dem Titel und dem Text (in tables)

    Der Ordner-Aufbau ist beispielsweise so:

    2011/09/29/12345/index.html

    Was ich nun möchte (suche) ist ein Skript oder auch einen Ansatz, wie ich die verschiedenen Daten in entsprechende Felder beispielsweise in Excel importiere, um diese dann später in die Mysql-Datenbank des CMS (Joomla) zu migrieren.

    Dabei soll nicht nur der Inhalt der HTML-Seite in die Felder geschrieben werden, sondern auch die Ordner-Struktur, so dass ich hinterher wieder dieselbe URL erhalte.

    Hinterher soll das dann so aussehen:

    Feld 1: 12345 (ID des Artikels)
    Feld 2: /2011/09/29/12345/
    Feld 3: Meta Description
    Feld 4: Meta Keywords
    Feld 5: Titel
    Feld 6: Text Inhalt der html-datei

    Der Inhalt im Feld Text muss jetzt auch nicht frei von <tables> sein.

    Hat vielleicht jemand ein paar Hinweise, wie ich das am Besten umsetzen kann? Ich habe mich schon wund gegoogelt. Ich weiß natürlich das es nicht die eierlegende Wollmichsau gibt, aber ein paar Tipps wäre super.



    Danke im voraus.

  • #2
    Hallo,

    du solltest nicht den Umweg über Excel gehen. Das Script, das diese Daten ermittelt kann das direkt in die MySQL-Datenbank schreiben. Ein fertiges Script dafür wirst du zwar nicht finden, weil dein Anliegen zu einfach aber gleichzeitig zu speziell ist. Wenn du ein wenig PHP kannst, kriegst du das aber selbst hin.

    Mit einem RecursiveDirectoryIterator kannst du die Verzeichnisse durchsuchen und lädst die gefundenen Dateien mit DOMDocument, um die Meta-Angaben herauszuholen. Schließlich schiebst du die ermittelten Informationen mit PDO in die Datenbank.

    Gruß,

    Amica
    [COLOR="DarkSlateGray"]Hast du die [COLOR="DarkSlateGray"]Grundlagen zur Fehlersuche[/color] gelesen? Hast du Code-Tags benutzt?
    Hast du als URL oder Domain-Beispiele example.com, example.net oder example.org benutzt?
    Super, danke!
    [/COLOR]

    Kommentar


    • #3
      PHP kann ich nur rudimentär ;-)

      Wichtig wäre ja das, der Ordnerpfad mit abgebildet wird und der letzte Ordner als ID fungiert.

      Dann müsste ich dem Skript ja sagen welche Textbausteine ausgelesen werden sollen.

      Hatte das jetzt so überlegt:
      Via Editor automatisiert die HTML Dateien von Code und nicht benötigten Infos zu befreien.

      Dann mit Unix-Befehlen die Ordnerstruktur und die alle Dateien in eine neue Textdatei schreiben und dann an die Datenbankstruktur anpassen.

      Wenn es per PHP gehen könnte wäre super. Hilfe würde ich natürlich auch nicht umsonst erwarten, sondern natürlich auch was dafür geben.

      Kommentar

      Lädt...
      X