Tool-Übersicht: Datenqualität in historischen Forschungsdaten

Datenqualität entsteht nicht erst am Ende eines Forschungsprojekts, sondern in vielen kleinen Entscheidungen entlang des gesamten Arbeitsprozesses. Diese Übersicht stellt Tools vor, die historisch Forschende dabei unterstützen, Daten im Sinne der FAIR-Prinzipien strukturierter zu erfassen, zu bereinigen, zu verknüpfen und nachvollziehbar zu dokumentieren.

Diese kuratierte Liste der gängigsten Werkzeuge bietet eine praxisnahe Orientierungshilfe. Der Fokus liegt auf quelloffenen und kostenfreien Anwendungen. Für eine weiterführende Recherche bieten sich unter anderem Verzeichnisse wie die Tool Registry for Digital Humanities, TAPoR, der SSH Open Marketplace, die NFDI4Culture Registry und die das NFDI4Memory Dienstportfolio an. Die Werkzeuge sind nach typischen Arbeitsschritten gruppiert.

Quellen erschließen und annotieren

Tropy: Forschungsfotos und Metadaten

Tropy ist eine Software zur Verwaltung und Annotation von Forschungsfotos, insbesondere von Archivmaterial. Durch strukturierte Metadaten und Annotationen unterstützt Tropy die einheitliche Beschreibung digitaler Quellenabbildungen und verbessert deren Wiederauffindbarkeit. Zudem können Quellen unabhängig von Archivlogiken nach eigenen Klassifikationsschemata organisiert werden. JSON-Export möglich.
Link: https://tropy.org

Recogito: Annotation und Entity Linking

Recogito ist eine webbasierte Plattform zur Annotation von Texten, Bildern und Karten. Historische Orte, Personen oder Ereignisse können markiert und mit kontrollierten Vokabularen oder Gazetteers wie GeoNames und Wikidata verknüpft werden. Dadurch unterstützt Recogito die Vereinheitlichung, Disambiguierung und Nachvollziehbarkeit von Annotationen.

Link: https://recogitostudio.org

LEAF Writer: Strukturierte Annotation historischer Dokumente

LEAF Writer ist ein Werkzeug zur strukturierten Erfassung und Annotation historischer Dokumente. Es ermöglicht standardisierte Metadaten und die Verknüpfung von Entitäten wie Personen, Organisationen, Orten oder Titeln mit Linked-Open-Data-Quellen wie DBpedia, GeoNames, Getty, LGPN, VIAF und Wikidata. Dadurch werden Schreibweisen vereinheitlicht und Referenzen präzisiert.
Link: https://leaf-writer.leaf-vre.org

Texte und Sprache erkennen

Transkribus: Handschriftenerkennung und Transkription

Transkribus ist eine KI-gestützte Plattform zur automatisierten Handschriftenerkennung (HTR) und Transkription historischer Dokumente. Durch projektspezifisch trainierte Modelle können automatische Transkriptionen verbessert und Fehlerquoten reduziert werden. Das unterstützt die Durchsuchbarkeit, Lesbarkeit und Nachnutzbarkeit transkribierter historischer Texte.

Hinweis: Kostenpflichtig. Generell lohnt es sich, zu aktuellen, insbesondere KI-gestützten Workflows zu recherchieren, die zunehmend ebenbürtig sind.

Link: https://www.transkribus.org/de

eScriptorium: OCR/HTR-Training und Transkription

eScriptorium ist eine Texterkennungs- und Transkriptionsplattform, mit der eigene Modelle trainiert werden können. Sie ist eine kostenfreie Open-Source-Alternative zu Transkribus, die auch lokal installiert werden kann und den Prozess der Texterkennung so transparenter macht. Wie Transkribus sorgt sie für eine bessere Lesbarkeit und Durchsuchbarkeit historischer Dokumente. Auch geeignet für nicht-lateinische Schriften und historische Drucke.

Hinweis: Generell lohnt es sich, zu aktuellen, insbesondere KI-gestützten Workflows zu recherchieren, die zunehmend ebenbürtig sind.

Link: https://ocr-bw.bib.uni-mannheim.de/escriptorium/

OCR4all: OCR-Workflow für historische Dokumente

OCR4all ist eine Open-Source-Plattform zur Texterkennung historischer Drucke und Dokumente. Sie bündelt verschiedene Arbeitsschritte von der Bildvorverarbeitung über Layoutanalyse bis zur OCR und Nachkorrektur in einer Oberfläche. Dadurch trägt OCR4all zur Erstellung besser durchsuchbarer und nachnutzbarer Volltexte bei.
Link: https://www.ocr4all.org

ASR4Memory: Automatische Transkription audiovisueller Quellen

ASR4Memory ist ein Dienst zur automatischen Transkription audiovisueller Forschungsdaten. Audiovisuelle Quellen in verschiedenen Sprachen können damit für Recherche, Analyse, Archivierung und Nachnutzung besser erschlossen werden. Die lokale Verarbeitung auf Infrastrukturen der Freien Universität Berlin ist besonders für datenschutzsensible Forschungsdaten relevant.

Link: https://4memory.de/dienste-ressourcen/dienstportfolio/detail/asr4memory/

OpenAI Whisper: Spracherkennung und Audiotranskription

Whisper ist ein Open-Source-System zur automatischen Spracherkennung. Es kann genutzt werden, um erste Transkriptionen mündlicher Quellen oder audiobasierter Forschungsdaten zu erstellen. Whisper erzeugt durchsuchbare Textversionen von Audiomaterial, was sie für textbasierte Analysen nutzbar macht. Für wissenschaftliche Nutzung sind allerdings Nachkorrektur und Qualitätssicherung in der Regel erforderlich.

Hinweis: ASR4Memory kann für datenschutzsensible Workflows relevanter sein.

Link: https://github.com/openai/whisper

Daten bereinigen und validieren

OpenRefine: Datenbereinigung und Reconciliation

OpenRefine ist ein Tool zur Bereinigung, Normalisierung und Anreicherung von strukturierten Daten.
Es hilft bei der Vereinheitlichung von Schreibweisen, Datumsformaten und Kategorien sowie der Erkennung von Dubletten und Formatabweichungen. Durch Reconciliation mit Normdatenquellen wie Wikidata oder GND verbessert OpenRefine Eindeutigkeit, Konsistenz und Interoperabilität.

Link: https://openrefine.org

NFDInspector: Metadatenprüfung und Validierung

NFDInspector ist ein Python-Paket zur automatisierten Prüfung formaler Qualitätsprobleme in Forschungsdaten. Es kann unter anderem fehlende oder unvollständige Metadaten identifizieren und unterstützt Formate wie LIDO und EAD. Das Tool ist damit besonders für die formale Validierung und Qualitätssicherung strukturierter Kulturdaten relevant.

Link: https://github.com/montan-code/nfdinspector

Daten modellieren, verknüpfen und publizieren

FactGrid: Wikibase-Plattform für historische Daten

FactGrid ist eine auf Wikibase basierende Plattform für historische Forschungsdaten, die auf der Struktur von Wikidata basiert und eine kollaborative Dateneingabe ermöglicht. FactGrid verbessert die Datenqualität, indem es Normdaten integriert, Beziehungen zwischen Entitäten überprüfbar macht und eine kontinuierliche Korrektur sowie Erweiterung historischer Daten durch die Forschungsgemeinschaft erlaubt.

Link: https://database.factgrid.de/wiki/Hauptseite

WissKI: Ontologiebasierte Forschungsumgebung

WissKI ist eine virtuelle Forschungsumgebung für semantisch strukturierte Forschungsdaten. Historische Daten können als Linked Data modelliert und mit kontrollierten Vokabularen beschrieben werden. Durch die Orientierung an Ontologien wie CIDOC CRM unterstützt WissKI eine konsistente Datenmodellierung und hilft, widersprüchliche oder uneinheitliche Angaben bereits bei der Erfassung zu vermeiden.

Link: https://wiss-ki.eu/de

nodegoat: Datenmodellierung und Visualisierung

Nodegoat ist eine webbasierte Forschungsumgebung für datengetriebene Geisteswissenschaften, die relational verknüpfte Informationen speichert, visualisiert und analysiert. Typisierte Relationen, strukturierte Zeitangaben und räumliche Verknüpfungen fördern eine konsistente Datenmodellierung. Dadurch können Netzwerke überprüft, Datenmodelle nachvollziehbar gemacht und Inkonsistenzen in Zeit- oder Ortsbezügen leichter sichtbar werden.
Link: https://nodegoat.net

Omeka S: Sammlungsverwaltung und Publikation

Omeka S ist ein Content-Management-System für digitale Sammlungen. Es unterstützt die strukturierte Beschreibung, Verwaltung und Publikation historischer Daten mit standardisierten Metadatenschemata wie Dublin Core. Dadurch verbessert es die Konsistenz, Interoperabilität und Nachnutzbarkeit von Metadaten.

Link: https://omeka.org/s/

FuD: Forschungsdaten- und Editionsplattform

FuD ist eine Datenbank- und Editionsplattform für die Erfassung, Verwaltung und Analyse historischer Quellen. Vordefinierte Erfassungsmasken fördern einheitliche Datenstrukturen und ermöglichen die Verknüpfung von Primärquellen mit Sekundärliteratur. Dadurch können historische Quellen strukturiert dokumentiert und nachvollziehbar miteinander verbunden werden.

Link: https://fud.uni-trier.de/

ontoME: Ontologie- und Datenmodellmanagement

ontoME ist eine Umgebung für Ontologie- und Datenmodellmanagement. Sie unterstützt die Entwicklung, Verwaltung und Harmonisierung von Begriffen, Klassen und Relationen. Dadurch fördert ontoME semantische Konsistenz und Interoperabilität zwischen unterschiedlichen historischen Datenmodellen.
Link: https://ontome.net/

lobid-gnd: GND-Recherche und Normdaten-API

lobid-gnd bietet eine Rechercheoberfläche und Linked-Open-Data-API für die Gemeinsame Normdatei (GND). Sie enthält über 8 Millionen Normdatensätze und wird zur Katalogisierung von Literatur in Bibliotheken, sowie von Archiven, Museen, und Forschungsprojekten genutzt. Der Abgleich eigener Daten mit GND-Normdaten unterstützt die eindeutige Referenzierung von Personen, Orten, Körperschaften und Schlagwörtern. Dadurch verbessert lobid-gnd Eindeutigkeit, Normdatenanbindung und Interoperabilität.
Link: https://lobid.org/gnd

Daten dokumentieren und organisieren

Zotero: Literatur- und Quellenverwaltung

Zotero ist ein Literaturverwaltungsprogramm zur systematischen Erfassung, Organisation und Zitation von Sekundärliteratur und Quellen. Durch automatische Metadaten-Extraktion aus Webseiten, PDFs oder ISBNs/DOIs sowie die Synchronisierung über Geräte hinweg sorgt Zotero für eine strukturierte Literaturverwaltung, die automatisch Zitate und Bibliographien in nahezu allen Zitationsstilen erstellen kann. Idealerweise entstehen so einheitliche, fehlerfreie und korrekt formatierte Fußnoten und Literaturverzeichnisse.

Link: https://www.zotero.org

Obsidian: Wissensmanagement und Forschungsnotizen

Obsidian ist ein Wissensmanagement-Tool zur Erstellung und Organisation von Notizen im Markdown-Format. So können Entscheidungen sinnvoll dokumentiert werden, Quellen und Notizen verknüpft werden, was zur besseren Nachvollziehbarkeit von Forschungs- und Bearbeitungsprozessen führt.

Hinweis: Joplin wäre eine Open Source Alternative.

Link: https://obsidian.md

Zettlr: Wissensmanagement für geisteswissenschaftliche Forschung

Link: https://www.zettlr.com

Eine Obsidian-Alternative für geisteswissenschaftliche Forschung.

Jupyter: Datenanalyse und Workflow-Dokumentation

Jupyter Notebooks kombinieren Code, Visualisierungen und erklärenden Text in einer gemeinsamen Arbeitsumgebung. Für die Datenqualität sind sie besonders relevant, weil Bereinigungs-, Transformations- und Prüfschritte transparent und reproduzierbar dokumentiert werden können. Dadurch eignen sie sich für nachvollziehbare Workflows in der datenbasierten historischen Forschung.

Link: https://jupyter.org

Advanced Renamer: Dateibenennung und Stapelumbenennung

Advanced Renamer ist ein Programm zur Stapelumbenennung von Dateien und Ordnern. Es unterstützt konsistente Benennungsschemata und erleichtert dadurch die Organisation, Auffindbarkeit und Verwaltung digitaler Forschungsdaten. Der Beitrag zur Datenqualität liegt vor allem in der Dateiorganisation, nicht in der inhaltlichen Validierung.

Link: https://www.advancedrenamer.com

Daten analysieren und visualisieren

Palladio: Historische Datenvisualisierung

Palladio ist eine Web-Anwendung zur Visualisierung und Analyse historischer Daten, insbesondere von Netzwerken, Karten und Zeitverläufen. So können nicht nur komplexe historische Daten visualisiert werden, sondern auch Auffäligkeiten in Datensätzen erkannt werden. Inkonsistenzen könnten zum Beispiel falsche Datums- oder Ortsangaben sein. Für umfangreichere Workflows können nodegoat oder Gephi geeigneter sein.

Link: https://hdlab.stanford.edu/palladio/

Gephi: Netzwerkanalyse und Visualisierung

Gephi ist eine Open-Source-Software für Netzwerkanalyse und -visualisierung. Sie hilft Forschenden in erster Linie dabei, Beziehungen zwischen Akteuren oder Ereignissen zu modellieren und visuell darzustellen. Bei einer explorativen Überprüfung von Netzwerkdaten kann Gephi Unstimmigkeiten und Lücken in historischen Daten sichtbar machen, indem z. B. isolierte oder fehlerhaft verknüpfte Knoten auffallen.

Link: https://gephi.org

QGIS: Geodatenanalyse und Kartierung

QGIS ist eine Open-Source-Software für geografische Informationssysteme und räumliche Visualisierung. Für historisch Forschende ermöglicht QGIS die Analyse, Prüfung und Darstellung raumbezogener Daten. Fehlerhafte Ortsangaben oder unplausible Verortungen können dadurch leichter erkannt werden.

Link: https://qgis.org

RAWGraphs: Visualisierung strukturierter Daten

RAWGraphs ist ein Open-Source-Werkzeug zur Visualisierung strukturierter Daten. Es kann helfen, Ausreißer, auffällige Verteilungen oder mögliche Erfassungsfehler sichtbar zu machen. Der Beitrag zur Datenqualität liegt vor allem in der visuellen Plausibilitätsprüfung.

Link: https://www.rawgraphs.io

Wir freuen uns über Ergänzungen, Korrekturen und Kommentare unter nfdi4memory@deutsches-museum.de

Zusammengestellt von: Maximilian Reimann, Deutsches Museum