Hallo zusammen,
mein Parser nimmt langsam Gestalt an. Allerdings muss ich jetzt ordentlich nachbessern, da viele Datensätze (v.a. aus älteren Jahrzehnten) nicht so formatiert sind, wie ich gedacht hatte.
Ich formuliere jetzt mal "umgangssprachlich" den Ausdruck, den ich benötige. Dabei soll __EGAL__ bedeuten, dass dieser Abschnitt komplett variabel sein darf (also entweder irgendeinen Inhalt oder keinen Inhalt hat). __NUTZDATEN__ ist der Part den ich extrahieren möchte.
Und von diesen Elementen können mehrere im Dokument enthalten sein. Wäre super, wenn mir jemand (vllt. via http://regexp-evaluator.de/evaluator/) zeigen kann, wie ich dies bewerkstelligen kann.
Vielen Dank und Grüße,
Chris
P.S. Hier noch ein Beispiel-File:
mein Parser nimmt langsam Gestalt an. Allerdings muss ich jetzt ordentlich nachbessern, da viele Datensätze (v.a. aus älteren Jahrzehnten) nicht so formatiert sind, wie ich gedacht hatte.
Ich formuliere jetzt mal "umgangssprachlich" den Ausdruck, den ich benötige. Dabei soll __EGAL__ bedeuten, dass dieser Abschnitt komplett variabel sein darf (also entweder irgendeinen Inhalt oder keinen Inhalt hat). __NUTZDATEN__ ist der Part den ich extrahieren möchte.
Code:
<div__EGAL__class="__EGAL__section-__EGAL__"__EGAL__>__NUTZDATEN__</div>
Vielen Dank und Grüße,
Chris
P.S. Hier noch ein Beispiel-File:
Code:
<div class="head1A section-title" id="id2591895">Abstract</div> <div class="head1A section-title" id="reference-sec">Selected References</div> <div class="head1 section-title" style="text-transform: none;" id="id2679636">References</div>
Kommentar