Data integration and metadata management in data lakes

  • Datenintegration und Metadatenmanagement in Data Lakes

Hai, Rihan; Jarke, Matthias (Thesis advisor); Miller, Renée (Thesis advisor); Quix, Christoph Josef (Thesis advisor)

Aachen (2020)
Doktorarbeit

Dissertation, RWTH Aachen University, 2020

Kurzfassung

Obwohl Big Data seit einigen Jahren diskutiert wird, gibt es immer noch viele Herausforderungen für die Forschung, wie z. B. die Vielfalt der Daten. Aufgrund der verschiedenartigen Datenquellen bilden sich Informationssilos als eine Sammlung nicht integrierter Daten-Management-Systeme mit heterogenen Schemata, Abfragesprachen und Datenmodellen. Es ist sehr schwierig, das große Datenvolumen in diesen Informationssilos mit den traditionellen „Schema-on-Write“-Ansätzen wie Data Warehouses effizient zu integrieren, darauf zuzugreifen und abzufragen. Als Lösung für dieses Problem wurden Data-Lake-Systeme vorgeschlagen, bei denen es sich um Repositorien handelt, in denen Rohdaten in ihren ursprünglichen Formaten gespeichert und eine gemeinsame Zugriffsschnittstelle bereitgestellt werden. Die Herausforderungen bei der Kombination mehrerer heterogener Datenquellen in Data Lakes liegen im Forschungsbereich der Datenintegration. Die Hauptaufgaben, um Daten in Data Lakes zu integrieren, sind das Verständnis der Beziehungen (z.B. Schemaabbildungen) zwischen Datenquellen in Data Lakes und die Beantwortung von Benutzeranfragen über heterogene Datenquellen. Um zu verhindern, dass ein Data Lake zu einem unbrauchbaren „Datensumpf“ wird, ist das Metadatenmanagement von entscheidender Bedeutung, insbesondere für den Zugriff auf und die Abfrage von Daten. Die Hauptherausforderungen für das Metadatenmanagement in Data Lakes bestehen darin, die Metadaten, die die Datenquellen beschreiben, zu erfassen, zu modellieren, zu speichern und anzureichern. Daher stellen wir in dieser Arbeit eine umfassende und flexible Data Lake-Architektur und ein Prototypsystem Constance vor, das Datenerfassung, -integration, -abfrage und ein ausgereiftes Metadatenmanagement über strukturierte, semi-strukturierte (z. B. JSON, XML) und graphorientierte Daten ermöglicht. Zunächst schlagen wir eine native Darstellung der Schemaabbildungen vor, um die hierarchischen Strukturen verschachtelter Schemaabbildungen zu erfassen und um das Erstellen von komplexen Abbildungen zu optimieren, indem Zwischenergebnisse mit vielen Schemaabbildungen vermieden werden. Zweitens ermöglicht unser Data-Lake-System die Koexistenz mehrerer Datenspeichersysteme mit unterschiedlichen Datenmodellen, um heterogene Daten in Rohformaten zu speichern. Um eine einheitliche Abfrageoberfläche bereitzustellen, entwickeln wir ein neuartiges System zum Umschreiben von Abfragen, die logische Methoden für die Datenintegration basierend auf deklarativen Schemaabbildungen mit dem Big-Data-Verarbeitungssystem Apache Spark kombiniert. Unser System führt die umgeschriebenen Abfragen effizient aus und führt die Abfrageergebnisse in einer integrierten Datenmenge zusammen. Drittens untersuchen wir auch die generierten Schemaabbildungen als formale Abhängigkeiten. In Bezug auf die Komplexität der Berechnung bestimmter logischer Schlussfolgerungen sind die Schemaabbildungsformalismen in der Logik zweiter Ordnung im Vergleich zu Schemaabbildungssprachen erster Ordnung weniger wünschenswert. Unser algorithmischer Ansatz transformiert Schemaabbildungen, die in Logik zweiter Ordnung ausgedrückt werden, in ihre logisch äquivalenten Formen erster Ordnung. Schließlich definieren wir ein generisches Metadatenmodell, um die Struktur heterogener Quellen darzustellen, und führen Cluster-basierte Algorithmen ein, um „weiche“ funktionale Abhängigkeiten zu entdecken, die die Metadaten anreichern und die Datenqualität im Data Lake verbessern.

Identifikationsnummern

Downloads