Interpreting black-box machine learning models with decision rules and knowledge graph reasoning

  • Interpretation von Black-Box-Modellen für maschinelles Lernen mit Entscheidungsregeln Regeln und Knowledge Graph Reasoning

Karim, Md. Rezaul; Decker, Stefan Josef (Thesis advisor); Rebholz-Schuhmann, Dietrich (Thesis advisor)

Aachen : RWTH Aachen University (2022)
Doktorarbeit

Dissertation, RWTH Aachen University, 2022

Kurzfassung

Algorithmen des maschinellen Lernens (ML) werden zunehmend zur Lösung komplexer Probleme eingesetzt, die eine hohe Genauigkeit aufweisen. Aufgrund des hohen Anteils nichtlinearer und übergeordneter Wechselwirkungen zwischen Merkmalen sind komplexe ML-Modelle jedoch tendenziell weniger interpretierbar und werden zunehmend zu Blackboxen, was einen klaren Kompromiss zwischen Genauigkeit und Interpretierbarkeit darstellt. Außerdem wissen wir bei der Verwendung eines Blackbox-Modells nicht, wie und warum die Eingaben letztendlich zu bestimmten Entscheidungen führen. Dies kann in vielen Situationen nicht akzeptabel sein (z. B. in klinischen Situationen, in denen KI erhebliche Auswirkungen auf das Leben von Menschen haben kann). Infolgedessen hat sich die Rechtslandschaft in europäischen und nordamerikanischen Ländern rasant entwickelt, z. B. mit der EU-GDPR. Erklärbarkeit, Transparenz und Fairness sind nicht nur wünschenswerte Eigenschaften der KI, sondern werden auch zu rechtlichen Anforderungen. Ein interpretierbares ML-Modell hingegen kann durch die Identifizierung statistisch signifikanter Merkmale aufzeigen, wie Eingabeinstanzen auf bestimmte Ausgaben abgebildet werden. Zieldieser Arbeit ist es, die Interpretierbarkeit und Erklärbarkeit von Black-Box-ML-Modellen zu verbessern, ohne dabei die Vorhersagegenauigkeit zu beeinträchtigen. Zunächst bettet ein Black-Box Multimodal Convolutional Autoencoder (MCAE) durch den Einsatz verschiedener Repräsentationslerntechniken multimodale Daten in einen gemeinsamen latenten Raum ein. Die erlernten Repräsentationen werden dann für die Klassifikationsaufgabe verwendet. Um die Interpretierbarkeit des Black-Box-Modells zu verbessern, werden verschiedene interpretierbare ML-Methoden wie Sondierungs-, Störungs- und Modellsurrogationstechniken angewendet. Außerdem wird ein interpretierbares Ersatzmodell trainiert, um das Verhalten des Backbox-Modells zu approximieren. Das Surrogatmodell wird anschließend verwendet, um Erklärungen in Form von Entscheidungsregeln und kontrafaktischen Daten zu liefern. Um sicherzustellen, dass die Modelle gegenüber Angreifern robust sind und sich wie beabsichtigt verhalten, wird zur Identifizierung von Angreifereingaben ein adversariales Retraining durchgeführt. Da ein widerstandsfähiges Modell in der Lage ist, einigermaßen konsistente und verlässliche Vorhersagen zu erstellen, wird die Robustheit als eine Eigenschaft formuliert, die sicherstellt, dass die Vorhersagen gegenüber kleinen Variationen in der Eingabe stabil bleiben, so dass ein kleines unsichtbares Rauschen durch Hinzufügen einer geringfügigen Störung zur gelieferten Eingabe die Vorhersage nicht in einen völlig anderen Krebstyp verwandeln sollte. Um ein konnektionistisches Modell um die Fähigkeit zum symbolischen Schließen zu erweitern, wird eindomänenspezifischer Wissensgraph (KG) erstellt, indem Wissen und Fakten aus der wissenschaftlichen Literatur und domänenspezifischen Ontologien integriert werden. Ein semantischer Reasoner wird dann verwendet, um die Assoziation signifikanter Merkmale mit verschiedenen Klassen auf der Grundlage von Beziehungen zu validieren, die er aus dem KG gelernt hat. Schließlich werden evidenzbasierte Entscheidungsregeln durch die Kombination von Entscheidungsregeln, kontrafaktischen Daten und Argumentation, um Vorhersageverzerrungen abzuschwächen. Außerdem wurde eine Webanwendung entwickelt, mit der sich die Qualität der Erklärungen im Hinblick auf die Systemkausalität, den Umfang und die Angemessenheit über eine benutzerfreundliche Schnittstelle bewerten lässt. Die quantitative Evaluierung zeigt, dass unser Ansatz bei der Auswertung von Testreihen, die nicht veröffentlicht werden, die bestehenden Ansätze deutlich übertrifft, was auf geringe Verzerrungen und eine potenziell hohe Verallgemeinerbarkeit hindeutet.

Einrichtungen

  • Fachgruppe Informatik [120000]
  • Lehrstuhl für Informatik 5 (Informationssysteme und Datenbanken) [124510]

Identifikationsnummern

Downloads