要約
表形式の生物医学データは高次元であることが多く、通常はサンプルサイズが小さいため、機械学習において課題が生じます。
これまでの研究では、特徴選択アプローチを通じてこれらの課題に対処しようとしましたが、実際のデータではパフォーマンスが不安定になる可能性がありました。
これは、現在の方法には、さまざまなサンプルに共通するパターンを捕捉する適切な誘導バイアスが欠けていることを示唆しています。
この論文では、サンプル間の均一性と不均一性の両方に注意を払うことで誘導バイアスを導入するプロトタイプベースのニューラル モデルである ProtoGate を提案します。
ProtoGate は、グローバルからローカルへの方法で特徴を選択し、それらを活用して、解釈可能なプロトタイプベースのモデルを通じて説明可能な予測を生成します。
私たちは、合成データセットと現実世界のデータセットで ProtoGate のパフォーマンスを評価するための包括的な実験を実施します。
私たちの結果は、データ内の同種パターンと異種パターンを活用することで、プロトタイプが解釈可能性を損なう一方、予測精度を向上できることを示しています。
要約(オリジナル)
Tabular biomedical data poses challenges in machine learning because it is often high-dimensional and typically low-sample-size. Previous research has attempted to address these challenges via feature selection approaches, which can lead to unstable performance on real-world data. This suggests that current methods lack appropriate inductive biases that capture patterns common to different samples. In this paper, we propose ProtoGate, a prototype-based neural model that introduces an inductive bias by attending to both homogeneity and heterogeneity across samples. ProtoGate selects features in a global-to-local manner and leverages them to produce explainable predictions via an interpretable prototype-based model. We conduct comprehensive experiments to evaluate the performance of ProtoGate on synthetic and real-world datasets. Our results show that exploiting the homogeneous and heterogeneous patterns in the data can improve prediction accuracy while prototypes imbue interpretability.
arxiv情報
著者 | Xiangjian Jiang,Andrei Margeloiu,Nikola Simidjievski,Mateja Jamnik |
発行日 | 2023-06-21 15:17:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google