Datenqualität entsteht nicht erst am Ende eines Forschungsprojekts, sondern in vielen kleinen Entscheidungen entlang des gesamten Arbeitsprozesses. Diese Übersicht stellt Tools vor, die historisch Forschende dabei unterstützen, Daten im Sinne der FAIR-Prinzipien strukturierter zu erfassen, zu bereinigen, zu verknüpfen und nachvollziehbar zu dokumentieren.
Diese kuratierte Liste der gängigsten Werkzeuge bietet eine praxisnahe Orientierungshilfe. Der Fokus liegt auf quelloffenen und kostenfreien Anwendungen. Für eine weiterführende Recherche bieten sich unter anderem Verzeichnisse wie die Tool Registry for Digital Humanities, TAPoR, der SSH Open Marketplace, die NFDI4Culture Registry und die das NFDI4Memory Dienstportfolio an. Die Werkzeuge sind nach typischen Arbeitsschritten gruppiert.
Quellen erschließen und annotieren
Tropy: Forschungsfotos und Metadaten
Tropy ist eine Software zur Verwaltung und Annotation von Forschungsfotos, insbesondere von Archivmaterial. Durch strukturierte Metadaten und Annotationen unterstützt Tropy die einheitliche Beschreibung digitaler Quellenabbildungen und verbessert deren Wiederauffindbarkeit. Zudem können Quellen unabhängig von Archivlogiken nach eigenen Klassifikationsschemata organisiert werden. JSON-Export möglich.
Link: https://tropy.org
Recogito: Annotation und Entity Linking
Recogito ist eine webbasierte Plattform zur Annotation von Texten, Bildern und Karten. Historische Orte, Personen oder Ereignisse können markiert und mit kontrollierten Vokabularen oder Gazetteers wie GeoNames und Wikidata verknüpft werden. Dadurch unterstützt Recogito die Vereinheitlichung, Disambiguierung und Nachvollziehbarkeit von Annotationen.
LEAF Writer: Strukturierte Annotation historischer Dokumente
LEAF Writer ist ein Werkzeug zur strukturierten Erfassung und Annotation historischer Dokumente. Es ermöglicht standardisierte Metadaten und die Verknüpfung von Entitäten wie Personen, Organisationen, Orten oder Titeln mit Linked-Open-Data-Quellen wie DBpedia, GeoNames, Getty, LGPN, VIAF und Wikidata. Dadurch werden Schreibweisen vereinheitlicht und Referenzen präzisiert.
Link: https://leaf-writer.leaf-vre.org
Texte und Sprache erkennen
Transkribus: Handschriftenerkennung und Transkription
Transkribus ist eine KI-gestützte Plattform zur automatisierten Handschriftenerkennung (HTR) und Transkription historischer Dokumente. Durch projektspezifisch trainierte Modelle können automatische Transkriptionen verbessert und Fehlerquoten reduziert werden. Das unterstützt die Durchsuchbarkeit, Lesbarkeit und Nachnutzbarkeit transkribierter historischer Texte.
Hinweis: Kostenpflichtig. Generell lohnt es sich, zu aktuellen, insbesondere KI-gestützten Workflows zu recherchieren, die zunehmend ebenbürtig sind.
eScriptorium: OCR/HTR-Training und Transkription
eScriptorium ist eine Texterkennungs- und Transkriptionsplattform, mit der eigene Modelle trainiert werden können. Sie ist eine kostenfreie Open-Source-Alternative zu Transkribus, die auch lokal installiert werden kann und den Prozess der Texterkennung so transparenter macht. Wie Transkribus sorgt sie für eine bessere Lesbarkeit und Durchsuchbarkeit historischer Dokumente. Auch geeignet für nicht-lateinische Schriften und historische Drucke.
Hinweis: Generell lohnt es sich, zu aktuellen, insbesondere KI-gestützten Workflows zu recherchieren, die zunehmend ebenbürtig sind.
OCR4all: OCR-Workflow für historische Dokumente
OCR4all ist eine Open-Source-Plattform zur Texterkennung historischer Drucke und Dokumente. Sie bündelt verschiedene Arbeitsschritte von der Bildvorverarbeitung über Layoutanalyse bis zur OCR und Nachkorrektur in einer Oberfläche. Dadurch trägt OCR4all zur Erstellung besser durchsuchbarer und nachnutzbarer Volltexte bei.
Link: https://www.ocr4all.org
ASR4Memory: Automatische Transkription audiovisueller Quellen
ASR4Memory ist ein Dienst zur automatischen Transkription audiovisueller Forschungsdaten. Audiovisuelle Quellen in verschiedenen Sprachen können damit für Recherche, Analyse, Archivierung und Nachnutzung besser erschlossen werden. Die lokale Verarbeitung auf Infrastrukturen der Freien Universität Berlin ist besonders für datenschutzsensible Forschungsdaten relevant.
Link: https://4memory.de/dienste-ressourcen/dienstportfolio/detail/asr4memory/
OpenAI Whisper: Spracherkennung und Audiotranskription
Whisper ist ein Open-Source-System zur automatischen Spracherkennung. Es kann genutzt werden, um erste Transkriptionen mündlicher Quellen oder audiobasierter Forschungsdaten zu erstellen. Whisper erzeugt durchsuchbare Textversionen von Audiomaterial, was sie für textbasierte Analysen nutzbar macht. Für wissenschaftliche Nutzung sind allerdings Nachkorrektur und Qualitätssicherung in der Regel erforderlich.
Hinweis: ASR4Memory kann für datenschutzsensible Workflows relevanter sein.
Daten bereinigen und validieren
OpenRefine: Datenbereinigung und Reconciliation
OpenRefine ist ein Tool zur Bereinigung, Normalisierung und Anreicherung von strukturierten Daten.
Es hilft bei der Vereinheitlichung von Schreibweisen, Datumsformaten und Kategorien sowie der Erkennung von Dubletten und Formatabweichungen. Durch Reconciliation mit Normdatenquellen wie Wikidata oder GND verbessert OpenRefine Eindeutigkeit, Konsistenz und Interoperabilität.
Link: https://openrefine.org
NFDInspector: Metadatenprüfung und Validierung
NFDInspector ist ein Python-Paket zur automatisierten Prüfung formaler Qualitätsprobleme in Forschungsdaten. Es kann unter anderem fehlende oder unvollständige Metadaten identifizieren und unterstützt Formate wie LIDO und EAD. Das Tool ist damit besonders für die formale Validierung und Qualitätssicherung strukturierter Kulturdaten relevant.
Daten modellieren, verknüpfen und publizieren
FactGrid: Wikibase-Plattform für historische Daten
FactGrid ist eine auf Wikibase basierende Plattform für historische Forschungsdaten, die auf der Struktur von Wikidata basiert und eine kollaborative Dateneingabe ermöglicht. FactGrid verbessert die Datenqualität, indem es Normdaten integriert, Beziehungen zwischen Entitäten überprüfbar macht und eine kontinuierliche Korrektur sowie Erweiterung historischer Daten durch die Forschungsgemeinschaft erlaubt.
WissKI: Ontologiebasierte Forschungsumgebung
WissKI ist eine virtuelle Forschungsumgebung für semantisch strukturierte Forschungsdaten. Historische Daten können als Linked Data modelliert und mit kontrollierten Vokabularen beschrieben werden. Durch die Orientierung an Ontologien wie CIDOC CRM unterstützt WissKI eine konsistente Datenmodellierung und hilft, widersprüchliche oder uneinheitliche Angaben bereits bei der Erfassung zu vermeiden.
Link: https://wiss-ki.eu/de
nodegoat: Datenmodellierung und Visualisierung
Nodegoat ist eine webbasierte Forschungsumgebung für datengetriebene Geisteswissenschaften, die relational verknüpfte Informationen speichert, visualisiert und analysiert. Typisierte Relationen, strukturierte Zeitangaben und räumliche Verknüpfungen fördern eine konsistente Datenmodellierung. Dadurch können Netzwerke überprüft, Datenmodelle nachvollziehbar gemacht und Inkonsistenzen in Zeit- oder Ortsbezügen leichter sichtbar werden.
Link: https://nodegoat.net
Omeka S: Sammlungsverwaltung und Publikation
Omeka S ist ein Content-Management-System für digitale Sammlungen. Es unterstützt die strukturierte Beschreibung, Verwaltung und Publikation historischer Daten mit standardisierten Metadatenschemata wie Dublin Core. Dadurch verbessert es die Konsistenz, Interoperabilität und Nachnutzbarkeit von Metadaten.
Link: https://omeka.org/s/
FuD: Forschungsdaten- und Editionsplattform
FuD ist eine Datenbank- und Editionsplattform für die Erfassung, Verwaltung und Analyse historischer Quellen. Vordefinierte Erfassungsmasken fördern einheitliche Datenstrukturen und ermöglichen die Verknüpfung von Primärquellen mit Sekundärliteratur. Dadurch können historische Quellen strukturiert dokumentiert und nachvollziehbar miteinander verbunden werden.
ontoME: Ontologie- und Datenmodellmanagement
ontoME ist eine Umgebung für Ontologie- und Datenmodellmanagement. Sie unterstützt die Entwicklung, Verwaltung und Harmonisierung von Begriffen, Klassen und Relationen. Dadurch fördert ontoME semantische Konsistenz und Interoperabilität zwischen unterschiedlichen historischen Datenmodellen.
Link: https://ontome.net/
lobid-gnd: GND-Recherche und Normdaten-API
lobid-gnd bietet eine Rechercheoberfläche und Linked-Open-Data-API für die Gemeinsame Normdatei (GND). Sie enthält über 8 Millionen Normdatensätze und wird zur Katalogisierung von Literatur in Bibliotheken, sowie von Archiven, Museen, und Forschungsprojekten genutzt. Der Abgleich eigener Daten mit GND-Normdaten unterstützt die eindeutige Referenzierung von Personen, Orten, Körperschaften und Schlagwörtern. Dadurch verbessert lobid-gnd Eindeutigkeit, Normdatenanbindung und Interoperabilität.
Link: https://lobid.org/gnd
Daten dokumentieren und organisieren
Zotero: Literatur- und Quellenverwaltung
Zotero ist ein Literaturverwaltungsprogramm zur systematischen Erfassung, Organisation und Zitation von Sekundärliteratur und Quellen. Durch automatische Metadaten-Extraktion aus Webseiten, PDFs oder ISBNs/DOIs sowie die Synchronisierung über Geräte hinweg sorgt Zotero für eine strukturierte Literaturverwaltung, die automatisch Zitate und Bibliographien in nahezu allen Zitationsstilen erstellen kann. Idealerweise entstehen so einheitliche, fehlerfreie und korrekt formatierte Fußnoten und Literaturverzeichnisse.
Link: https://www.zotero.org
Obsidian: Wissensmanagement und Forschungsnotizen
Obsidian ist ein Wissensmanagement-Tool zur Erstellung und Organisation von Notizen im Markdown-Format. So können Entscheidungen sinnvoll dokumentiert werden, Quellen und Notizen verknüpft werden, was zur besseren Nachvollziehbarkeit von Forschungs- und Bearbeitungsprozessen führt.
Hinweis: Joplin wäre eine Open Source Alternative.
Link: https://obsidian.md
Zettlr: Wissensmanagement für geisteswissenschaftliche Forschung
Link: https://www.zettlr.com
Eine Obsidian-Alternative für geisteswissenschaftliche Forschung.
Jupyter: Datenanalyse und Workflow-Dokumentation
Jupyter Notebooks kombinieren Code, Visualisierungen und erklärenden Text in einer gemeinsamen Arbeitsumgebung. Für die Datenqualität sind sie besonders relevant, weil Bereinigungs-, Transformations- und Prüfschritte transparent und reproduzierbar dokumentiert werden können. Dadurch eignen sie sich für nachvollziehbare Workflows in der datenbasierten historischen Forschung.
Link: https://jupyter.org
Advanced Renamer: Dateibenennung und Stapelumbenennung
Advanced Renamer ist ein Programm zur Stapelumbenennung von Dateien und Ordnern. Es unterstützt konsistente Benennungsschemata und erleichtert dadurch die Organisation, Auffindbarkeit und Verwaltung digitaler Forschungsdaten. Der Beitrag zur Datenqualität liegt vor allem in der Dateiorganisation, nicht in der inhaltlichen Validierung.
Daten analysieren und visualisieren
Palladio: Historische Datenvisualisierung
Palladio ist eine Web-Anwendung zur Visualisierung und Analyse historischer Daten, insbesondere von Netzwerken, Karten und Zeitverläufen. So können nicht nur komplexe historische Daten visualisiert werden, sondern auch Auffäligkeiten in Datensätzen erkannt werden. Inkonsistenzen könnten zum Beispiel falsche Datums- oder Ortsangaben sein. Für umfangreichere Workflows können nodegoat oder Gephi geeigneter sein.
Gephi: Netzwerkanalyse und Visualisierung
Gephi ist eine Open-Source-Software für Netzwerkanalyse und -visualisierung. Sie hilft Forschenden in erster Linie dabei, Beziehungen zwischen Akteuren oder Ereignissen zu modellieren und visuell darzustellen. Bei einer explorativen Überprüfung von Netzwerkdaten kann Gephi Unstimmigkeiten und Lücken in historischen Daten sichtbar machen, indem z. B. isolierte oder fehlerhaft verknüpfte Knoten auffallen.
Link: https://gephi.org
QGIS: Geodatenanalyse und Kartierung
QGIS ist eine Open-Source-Software für geografische Informationssysteme und räumliche Visualisierung. Für historisch Forschende ermöglicht QGIS die Analyse, Prüfung und Darstellung raumbezogener Daten. Fehlerhafte Ortsangaben oder unplausible Verortungen können dadurch leichter erkannt werden.
Link: https://qgis.org
RAWGraphs: Visualisierung strukturierter Daten
RAWGraphs ist ein Open-Source-Werkzeug zur Visualisierung strukturierter Daten. Es kann helfen, Ausreißer, auffällige Verteilungen oder mögliche Erfassungsfehler sichtbar zu machen. Der Beitrag zur Datenqualität liegt vor allem in der visuellen Plausibilitätsprüfung.
Link: https://www.rawgraphs.io
Wir freuen uns über Ergänzungen, Korrekturen und Kommentare unter nfdi4memory@deutsches-museum.de
Zusammengestellt von: Maximilian Reimann, Deutsches Museum