Der Datenaustausch, ob öffentlich oder privat, findet immer zwischen zwei Parteien statt, die nicht immer die gleiche Sprache sprechen und oft unterschiedliche Interessen vertreten. Das verbindende Element sind Metadaten, wie dies auch von Open Access verlangt wird.
95% und mehr aller Dateien und sogar bis zu 75% der wissenschaftlichen Inhalte, die über das Internet gefunden werden, werden von Nicht-Wissenschaftlern heruntergeladen, für welche Metadaten nur insoweit von Belang sind, als sie dazu dienen, Dokumente automatisch zu klassifizieren, was allerdings taugliche Software voraussetzt.
Wissenschaftler anderseits benötigen Metadaten für ihre Forschungs- und Veröffentlichungs-Arbeit und professionelle Anwender von Big Data sind regelmässig darauf angewiesen. Diese wissen, wie sie die relevanten Metadaten aus den verschiedenen Repositorien beschaffen können, bei welchen Aggregatoren nachzusehen und wie die Linked Data Services und institutionelle Archivierungssysteme zu nutzen.
Alle anderen (d.h. die Mehrheit) haben kaum diese Möglichkeiten und sind ohne Metadaten allein auf den Dateinamen eines heruntergeladenen Dokumentes oder Datensatzes angewiesen, um dieses wieder auffindbar bei sich einzureihen.
Deshalb haben wir damals das Konzept des „wohlerzogenen Dokumentes“ eingeführt, d.h. Dokumenten sollen
• Sucher-freundlich sein (mit eingebetteten + nützlichen Metadaten) und
• Benutzer- freundlich sein (mit Lesezeichen und interaktivem Inhaltsverzeichnis).
Dies lässt sich leicht in PDF, EPUB und HTML-Dateien umsetzen, ist aber nicht annähernd so einfach mit anderen Datenformate und virtuellen Objekten.
Deshalb haben wir das dMeta -Konzept entwickelt.
dMeta ist ein neues Dateiformat
dMeta steht für Data Plus Metadaten Zip-Paket, das sind Dateien mit der Endung *.dMeta (oder *.dpmz oder *.d+mz oder einfach *.zip).
Metadaten (beschreibende, zitat-relevante, such-relevante etc.) können zu jeder Datei unabhängig von deren Format mit geeigneter Software (siehe unten) erstellt und als XMP-Sidecar gespeichert und dann zusammen mit dieser gebündelt und ausgetauscht werden.
Damit kann jede Art von Daten dauerhaft mit deren beschreibenden Metadaten verknüpft und dann immer als Einheit gesehen werden – genau wie ein Dokument mit eingebetteten Metadaten.
Diese können verschlüsselte Dokumente sein, in denen die Einbettung von Metadaten nicht möglich ist, aber auch in Enstehung begriffene Arbeiten, selbst veröffentlichte Artikel, Ausgabe von einem Instrument, Bilder, Tabellen, Präsentationen und sogar virtuelle Gegenstände wie Drucksachen, Web-Links oder YouTube-Videos, etc. Im Fall von virtuellen Gegenständen wir nur die XMP-Sidecar-Datei ausgetauscht oder veröffentlicht.
dMeta -Dateien sind sehr einfach zu erstellen, denn sie sind ganz normale ZIP-Dateien nur mit einer anderen Endung, ähnlich wie bei EPUB-Dateien, nämlich Bündelungen mit einer vorgegebenen Struktur.
dMeta als Endung hat den Vorteil, dass solche Dateien sofort als Bündel erkannt und direkt interpretiert und indiziert werden. Sie enthalten in der Regel zwei Dateien mit genau dem gleichen Namen, aber mit unterschiedlichen Endungen, von denen eine * .XMP sein muss. Lesesoftware verbindet diese beiden automatisch, so lange sie im selben Verzeichnis oder Ordner befinden.
Ein solches Paket kann mehrere Paare von Daten und Metadaten Sätze sowie einzelne XMP-Dateien mit Metadaten von virtuellen Gegenständen oder Links zu einer externen Quelle enthalten.
Das Konzept zielt darauf ab
Forscher mit Forschung zu verbinden, indem jede Datei gekoppelt und zusammen mit ihren beschreibenden Metadaten übertragen wird. Dazu gehören begleitende Texte, forschungs-relevante und von Instrumenten erzeugte Daten und Support-Hinweise, die normalerweise nicht in einem Artikel erscheinen, die jedoch, von Open Access erfordert, dem wissenschaftlichen Universum zur Verfügung gestellt werden sollen. Wissenschaftler können leichter Ressourcen und Wissen austauschen und die Zusammenarbeit wird erleichtert.
Bibliotheken und anderen Inhaltsanbietern erlauben, die beschreibenden Metadaten, die sie ohnehin in ihren eigenen Repositorien halten, zusammen mit Dokumenten, die sie wegen Passwort, Verschlüsselung oder Originalschutz (Prüfsumme) nicht verändern dürfen, zu verteilen.
Die Sichtbarkeit von Autoren zu erhöhen, indem sichergestellt wird, dass die Metadaten Peer-Review und Seitengestaltung überleben, da die Verlage diese Metadaten problemlos in die endgültige PDF Datei vor der Veröffentlichung importieren können.
Und da der Akademischen Druck zu publizieren und zu zitieren stetig zunimmt, können Autoren dank nützlicher Metadaten Zitate und bibliografische Referenzen direkt erstellen, auch wenn sich keine Quellangaben im Internet finden lassen, z.B. von un- oder selbst-publizierten Arbeiten, von crowsourced Digitalisaten oder gedruckten Büchern.
Verlegern ermöglichen, ihrem Angebot einen Mehrwert zu verleihen und so zur Verbreitung von Wissen einen wichtigen Beitrag leisten und die Open Access Initiative aktiv zu unterstützen.
Warum XMP
Es gibt Dutzende von Metadaten-Standards von Dutzenden von Organisationen, jeder mit seinem eigenen Wortschatz, doch keiner deckt alle Bedürfnisse aller Nutzer ab. Dies wirkt sich besonders bei interdisziplinarer Verwendung wissenschaftlicher Inhalte negativ aus. Ein Medizinstudent lädt sich auch Artikel über Chemie und naturwissenschaftliche Inhalte herunter und braucht diese Daten um Zitate zu erzeugen und ein Architekt würde seine Sammlung von Dokumenten vielleicht nach technischen und sozialwissenschaftlichen Kriterien anlegen und darin auch Photos von eigenen und fremden Realisationen aufbewahren. Zwar gibt es institutionelle Archivierungs- und Navigations-System mit Links zu hinterlegten Daten, doch sind diese für den Hausgebrauch zu komplex und für den Einzelnen meistens nicht zugänglich.
Deshalb ist eine pragmatische Lösung gefragt, welche individuell erweiterbar ist und für den Einzelnen alle Metadaten erfassen und in Klartext anzeigen lässt, denn für diesen ist das zugrundeliegende Schema in den meisten Fällen unwichtig. Ein Author ist ein Author, egal ob diese Variable als Dublin Core, MODS, MARC21, Endnote, Citation oder irgend einem anderen Vokabular daher kommt.
Die vorgeschlagenen Lösung baut für die Daten auf dem weit verbreiteten Dublin Core-Standard (ohne Verfeinerungen) auf mit der zusätzlich Möglichkeit, eine unbegrenzte Anzahl von benutzerdefinierten Attribut / Wert Paaren anzufügen, was eigene, neue und nicht an DC assoziierbare Variablen zulässt.
Der Austausch von Metadaten mit Dritten beruht auf dem Resource Description Framework (RDF) und der weithin akzeptierten XMP-Technologie von Adobe©. Dies ist das Format, welches bereits in PDF-Dokumenten implementiert ist, welches auch einen Platzhalter für benutzerdefinierte Variablen (pdfx) enthält, also die Möglichkeit bietet, nicht assoziierbare Metadaten (e.v. mit einem quellspezifischen Präfix) zu speichern.
Die Extensible Metadata Platform (XMP) von Adobe ist eine Technologie , die es erlaubt, Metadaten direkt in eine Datei einzubetten. Die öffentlichen Spezifikationen fiden Sie auf www.adobe.com/products/xmp/.
Geeignete Software
Unter geeigneter Software versteht man (möglichst kostenlose) Programme, mit folgende Funktionen:
- Metadaten anzeigen
- Eingebettete Metadaten aus gängigen Formaten (PDF, EPUB, HTML) ausziehen
- Metadaten aus XMP Sidecar Dateien übernehmen
- dMeta Pakete als Datei mit eingebetteten Metadaten erkennen
- Metadaten aus anderen Standards übernehmen und assoziieren
- Standardisierte Metadaten Namen in anderen Sprachen anzeigen
- Kataloge von Dokumenten/Daten Sammlungen erstellen, welche sich aufgrund der eingebetteten oder nachträglich eingetragenen Metadaten automatisch indexieren und durchsuchen lassen
- Metadaten verwalten, bearbeiten und ergänzen
- Zitate und bibliografische Referenzen erzeugen
- XMP Sidecar Dateien aus vorhandenen Metadaten erzeugen
- dMeta Pakete erstellen
Mir ist nur ein einziges Programm bekannt, welches alle 11 Kriterien erfüllt, nämlich digi-libris Reader, weil wir es selber entwickelt haben und weil dMeta für alle anderen noch neu sein dürfte.
Schlussfolgerung
Das Ziel dieser Arbeit ist es, das dMeta Konzept allen im Verlagswesen und der Wissenschaftskommunikation beteiligten Parteien vorstellen, von Autoren und Bildungseinrichtungen über Verleger bis zu Bibliothekare, um ihre Unterstützung zu erhalten und letztlich, um die Idee für den eigenen Datenaustausch zu übernehmen und um dMeta als neuen und akzeptierten Standard zu fördern.
Natürlich gibt es in diesem Zusammenhang noch einige offene Fragen, wie z.B die interdisziplinäre Taxonomie und lokale Sprachanpassung von Attributnamen, aber diese müssen von den zuständigen akademischen Kreisen und / oder Standards verwaltenden Organisationen verarbeitet werden.
dMeta ist eine neue (und vorläufig noch) einzigartige Eigenschaft von digi-libris Reader, wir hoffen jedoch, dass andere Software-Entwickler dieses Format übernehmen und helfen werden, diesen Standard für die Verteilung von digitalen Inhalten jeglicher Art einzuführen.
von John W. Miescher, Bizgraphic Co., Genf/Schweiz 1. September 2014