Lowering the barriers to hypothesis-driven data science
Subramanian, Krishna; Borchers, Jan Oliver (Thesis advisor); Cairns, Paul (Thesis advisor)
Aachen : RWTH Aachen University (2022, 2023)
Doktorarbeit
Dissertation, RWTH Aachen University, 2022
Kurzfassung
Data Science wird in der Wissenschaft und Industrie häufig benötigt. Ein wichtiger Nutzen ist die Prüfung von Hypothesen, wofür der Analyst signifikanz-basierte Hypothesentests verwendet, um auf Basis von Daten aus Experimenten Erkenntnisse über eine Populationsverteilung zu gewinnen. Neben Data Scientists, die professionelles Training in Data Science und hohe Kompetenz haben, üben viele nicht-professionelle Analysten Data Science aus. Diese bezeichnen wir als Data Workers und sie sind Experten in einem Gebiet, denen jedoch Expertise in Data Science fehlt. Data Workers umfassen akademische Wissenschaftler, Projektmanager und Vertriebsleiter. Mithilfe von Interviews, Beobachtungen, Online-Umfragen und Inhaltsanalyse haben wir versucht, den Arbeitsablauf von Data Workern in wichtigen Aufgabenbereichen von Hypothesentests zu verstehen: Theoretische und praktische Statistik erlernen; statistische Verfahren auswählen; Data Science Programmierumgebungen nutzen, um mit Ideen in Quellcode zu experimentieren; den Quellcode verfeinern und überarbeiten; sowie die Analysergebnisse verbreiten. Wir gruppieren unsere Ergebnisse in zwei Teilschritte von Data Science:1. Die Vorbereitung zur Durchführung von Data Science-Aufgaben: Wir diskutieren unsere Ergebnisse zum Einfluss von formaler Ausbildung auf die tatsächliche Praxis; Abwägungen zwischen Informationsquellen, welche die Auswahl von statistischen Verfahren herangezogen werden; empfundene Komplexität und Unsicherheit über die getroffene Wahl statistischer Verfahren; und den Widerwillen von Data Workern, alternative Analysemethoden anzuwenden. Aufgrund dieser Ergebnisse präsentieren wir Designempfehlungen sowie ein Artefakt, welche die Arbeit von Data Workern verbessern sollen. Unsere Artefakt ist StatPlayground, ein interaktives Simulations-Tool, das zum selbstständigen Erlernen statistischer Konzepte und Verfahren genutzt werden kann. 2. Die Durchführung von Data Science-Aufgaben: Unsere Ergebnisse beinhalten eine Übersicht über den Arbeitsablauf eines Hypothesentests unter Nutzung einer Programmierumgebung, der die Form von explorativer Programmierung nimmt; und ein Vergleich existierender Oberflächen für Data Science-Programmierung, nämlich Notebooks, Skripte und Konsolen, sowie eine Diskussion darüber, wie gut sie die verschiedenen Schritte der Hypothesentests unterstützen. Um den Arbeitsablauf von Data Workern während solcher Data Science-Aufgaben zu verbessern, präsentieren wir Designempfehlungen und zwei Artefakte. Die Artefakte sind StatWire, eine experimentelle Oberfläche zur hybriden Programmierung, die Data Worker dazu ermutigen kann, hochwertigen Quellcode zu schreiben; und Tractus, eine interaktive Visualisierung, die den Aufwand der Arbeit mit experimentellem Code verringert. Basierend auf dieser Arbeit stellen wir vier Erkenntnisse vor, die von Wissenschaftlern, Software-Entwicklern und Ausbildern genutzt werden können, um die Hürden zum Erlernen des Umgangs mit Hypothesentests zu senken.
Einrichtungen
- Fachgruppe Informatik [120000]
- Lehrstuhl für Informatik 10 (Medieninformatik und Mensch-Computer-Interaktion) [122710]
Identifikationsnummern
- DOI: 10.18154/RWTH-2023-00739
- RWTH PUBLICATIONS: RWTH-2023-00739