An approach for global and local data lifecycle management with provenance and persistent identifiers
- Ein Ansatz für globales und lokales Datenlebenszyklusmanagement mit Provenienz und persistenten Identifikatoren
Gleim, Lars Christoph; Decker, Stefan Josef (Thesis advisor); Sure-Vetter, York (Thesis advisor)
Aachen : RWTH Aachen University (2023)
Doktorarbeit
Dissertation, RWTH Aachen University, 2023
Kurzfassung
In Zeiten zunehmender organisationsübergreifender Zusammenarbeit, agiler Produktentwicklung und zunehmenden Informationsaustauschs in der gesamten Lieferkette der Unternehmen wird das Management des Datenlebenszyklus immer komplexer. Derzeitige Datenverwaltungspraktiken, die auf Data-Lake- und Data-Warehouse-Systemen basieren, können den industriellen Anforderungen von morgen nur schwer gerecht werden. Basierend auf den Grundlagen der Linked-Data-Technologie und den Prinzipien und Best Practices für auffindbares, zugängliches, interoperables und wiederverwendbares (FAIR) Datenmanagement beschreiben wir einen Ansatz für globales und lokales Datenlebenszyklusmanagement mit Provenienz und persistenten Identifikatoren. Wir bezeichnen diesen Ansatz als World Wide Data Management (WWDM). In dieser Arbeit definieren wir Schlüsseldienste, Grundsätze und bewährte Verfahren für WWDM und stellen eine Referenzarchitektur und -implementierung vor. Wir präsentieren FactID, einen neuartigen Ansatz zur dauerhaften Identifizierung und Archivierung von Ressourcen, der eine global verteilte Ressourcenpersistenz ermöglicht. Extended Memento, eine HTTP-Erweiterung zur Ermöglichung einheitlicher, von der Infrastruktur unabhängiger Datenpersistenz im industriellen Maßstab. FactDAG, ein Datenintegrations- und Interoperabilitätsmodell, das Daten über System- und Organisationsgrenzen hinweg, sowie entlang des gesamten Daten- und Produktlebenszyklus, mit Hilfe von Provenance-Links verknüpft. FactStack, eine Implementierung des FactDAG-Modells auf der Grundlage der Prinzipien von Linked Data und FAIR-Datenmanagement. ReShare, einen Ansatz, der eine überprüfbare Verantwortlichkeit für die gemeinsame Nutzung von Daten über Organisationsgrenzen hinweg ermöglicht, unter Verwendung des neuartigen Konzepts der Digital Transmission Contracts. FactFUSE, einen Ansatz, der das WWDM-Paradigma auf der Grundlage des FactStack-Systems mit herkömmlichen hierarchischen Dateisystemen integriert, um die praktische Benutzerfreundlichkeit und die Einführung des Gesamtparadigmas zu unterstützen. Durch die Kombination dieser Beiträge wird die Suite von Datenverwaltungsdiensten, die den Kern des WWDM-Paradigmas bildet, in einer interoperablen und nachhaltigen Weise realisiert, die eine durchgängige Lenkung und Unterstützung der Datenverwaltung während ihres gesamten Lebenszyklus ermöglicht. Damit liefern die vorgestellten Ergebnisse eine praktische Grundlage für die interorganisationale Datenverwaltung und Zusammenarbeit mit minimalem operativem Aufwand, so als würden die Daten lokal verwaltet, was das FAIR-Datenmanagement über den gesamten Produktlebenszyklus und die Unternehmenslieferkette hinweg ermöglicht und die Grundlage für die agile Produktentwicklung und Zusammenarbeit in der Industrie 4.0 und darüber hinaus bildet.
Einrichtungen
- Fachgruppe Informatik [120000]
- Lehrstuhl für Informatik 5 (Informationssysteme und Datenbanken) [124510]
Identifikationsnummern
- DOI: 10.18154/RWTH-2023-04233
- RWTH PUBLICATIONS: RWTH-2023-04233