Quellen, Quellen, Quellen

Taufkirchen, 11.03.18 (he) – Einfach geil! Ein Erfolg, der mich in Hochstimmung versetzt. Für die fundierte Recherche in eigenen Textquellen arbeite ich mich seit längeren in die Datenbank „DEVONThink Office Pro“ ein. Dort importiere ich alle Textdokumente, bisher ausschließlich pdf’s.

„Eigene“ Textquellen sind die mir vorliegenden Friebe-Unterlagen, meine eigenen Veröffentlichungen und die mir zugänglichen Archive, beispielsweise von Heise-Magazinen iX und c’t.

Das iX-Archiv liegt mir seit Bestehen der Zeitschrift vor (kann jeder im Heise-Shop kaufen). Immerhin wird die iX seit 1988 publiziert. Es ist eine gewaltige Textmenge aufgelaufen, pro Jahrgang publiziert die iX zirka 4.500 Artikel.

Mein Problem – die Formate der einzelnen iX-Jahrgänge sind unterschiedlich abgespeichert. So sind die Ausgaben von 1988 bis einschließlich 1983 als pdf-Dateien pro Heft verfügbar ab 2008 bis heute wieder.  Die Zwischenjahre ab 1994 bis einschließlich 2007 gibt es lediglich als HTML-Texte.

Die Konvertierung eine Komplett-Ausgabe der iX von HTML-Texten in pdf-Dateien und die Zusammenstellung in einer Ausgabe dauert manuell drei Stunden. Da kommt man schon in’s Grübeln, warum man das machen sollte. Den Plan dahinter erzähle ich später.

Mein heutiger Erfolg ist, dass ich einen Weg gefunden habe, einen kompletten iX-Jahrgang als HTML-Text in meine Datenbank zu importieren. Dort ist sie genauso wie eine pdf-Datei per Volltextsuche zu bearbeiten. Genau das was ich brauche.

Fazit: Drei Minuten für 13 Ausgaben anstatt drei Stunden für eine Ausgabe! Das ist einfach geil!

Schreiben Sie einen Kommentar