An Explainable Pipeline for Machine Learning with Functional Data

要約

機械学習(ML)モデルは、予測の目的でアプリケーションで成功を示していますが、一部のモデルのアルゴリズムの複雑さにより、解釈が困難になります。
これらの「ブラックボックス」モデルに関する洞察を提供する方法が提案されていますが、モデル入力が機能データである場合、監視されたMLに焦点を当てた研究はほとんどありません。
この作業では、機能データ入力を使用して予測を行う目的を持つ高感度スペースからの2つのアプリケーションを検討します。
1つのアプリケーションは、材料の種類を分類して、材料のハイパースペクトルコンピューター断層撮影スキャンを与えられた爆発物を特定することを目的としています。
他のアプリケーションでは、ラマン分光法で抽出されたカラーシグネチャを使用して、インクジェット印刷ドキュメントをソースプリンターに接続するという法医学科学タスクを考慮します。
これらのデータを分析するための本能的なルートは、分類のためのデータ駆動型MLモデルですが、アプリケーションの結果が高いため、分析のデータの性質を曖昧にしないように適切に説明することが重要であると主張します。
誤ったパターン。
そのため、(1)機能データの垂直的および水平方向の変動を説明する機能データを使用してMLモデルをトレーニングするための説明可能な弾性形状分析(VEESA)パイプラインのさまざまな重要性を提案し、(2)元のデータ空間で説明を提供します
モデルが機能データの変動を使用する方法の予測のために。
パイプラインは、弾性機能の主成分分析(EFPCA)を使用して、非相関モデル入力と順列機能の重要性(PFI)を生成して、予測に重要な主要成分を特定します。
重要な主成分によってキャプチャされた変動性は、元のデータ空間を視覚化しました。
最終的に、Veesaパイプラインの自然な拡張に関するアイデアと将来の研究のための課題について説明します。

要約(オリジナル)

Machine learning (ML) models have shown success in applications with an objective of prediction, but the algorithmic complexity of some models makes them difficult to interpret. Methods have been proposed to provide insight into these ‘black-box’ models, but there is little research that focuses on supervised ML when the model inputs are functional data. In this work, we consider two applications from high-consequence spaces with objectives of making predictions using functional data inputs. One application aims to classify material types to identify explosive materials given hyperspectral computed tomography scans of the materials. The other application considers the forensics science task of connecting an inkjet printed document to the source printer using color signatures extracted by Raman spectroscopy. An instinctive route to consider for analyzing these data is a data driven ML model for classification, but due to the high consequence nature of the applications, we argue it is important to appropriately account for the nature of the data in the analysis to not obscure or misrepresent patterns. As such, we propose the Variable importance Explainable Elastic Shape Analysis (VEESA) pipeline for training ML models with functional data that (1) accounts for the vertical and horizontal variability in the functional data and (2) provides an explanation in the original data space of how the model uses variability in the functional data for prediction. The pipeline makes use of elastic functional principal components analysis (efPCA) to generate uncorrelated model inputs and permutation feature importance (PFI) to identify the principal components important for prediction. The variability captured by the important principal components in visualized the original data space. We ultimately discuss ideas for natural extensions of the VEESA pipeline and challenges for future research.

arxiv情報

著者 Katherine Goode,J. Derek Tucker,Daniel Ries,Heike Hofmann
発行日 2025-02-12 17:41:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク