HTML ist in Bezug auf eingebettete Metadaten das unkontrollierteste Format, denn es gibt buchstäblich Tausende von Anwendungen, die HTML Dateien erzeugen können, wobei Struktur, Syntax und der Einsatz von CSS und Javascripts sehr unterschiedliche Resultate erbringen.
Während die meisten die Metadaten als <meta name = xxx> im <head> Block anbringen, haben wir die wildesten Exzesse von dem, was nach dem Gleichheitszeichen folgt gesehen.
Bei weitem nicht alle verwenden <DC ... oder <dc.terms ... und oft diejenigen, die dies tun, gebrauchen Phantasie Bezeichnungen ihrer eigenen Wahl. Vor kurzem haben wir benutzerdefinierte Tags mit Facebook und Twitter-Präfixe gesehen, welche oft zitat-relevante Werte enthalten. Auch verwenden dies oft andere Vorzeichen, z.B. <meta.option=...>
Geeignete Software sollte auch ein Werkzeug beinhalten, welches das Angleichen ungewöhnlicher Meta-Namen an gültige dc.elements, dc.terms, Zitat Variablen oder benutzerdefinierte Wert / Attribut Paare ermöglicht und zwar noch bevor diese in eine Sammlung integriert werden.
Ein weiteres Problem mit HTML-Dateien ist, dass viele virtuell oder auf spontan und programmatisch erstellt werden, z.B. als Antwort auf eine Anfrage, und viele sind das Ergebnis von mehreren Seitenumleitungen und sind deshalb nicht unbedingt die Datei, die der Benutzer dachte, angeklickt zu haben. Dies geschieht in der Regel auf Seiten mit Rahmensets oder Master-Seiten mit vielen Links aufgebaut sind.
Geeigneten Software sollte es ermöglichen Sammlungen und Inhaltsverzeichnisse zu erstellen, welche ebenfalls Metadaten von virtuellen Dateien entgalten können.
Da das Herunterladen Dateien mit einer Länge von Null ergeben kann, ist es empfehlenswert, dass alle Downloads überprüft werden, bevor sie definiv an einer Sammlung hinzugefügt werden.
Aus diesem Grund zeigt digi-libris alle Dateien und deren Pfade an, welche mit einem einzigen Klick auf einen Link geöffnet wurden.