SHAP zero Explains Genomic Models with Near-zero Marginal Cost for Future Queried Sequences


Shapley 値は、個々の入力クエリ シーケンスに対して局所的にモデル予測を説明しますが、生物学的知識を抽出するには、数千の入力シーケンスにわたるグローバルな説明が必要です。
ここでは、SHAP ゼロを開発します。これは、モデルのスケッチに 1 回限りの料金を支払った後、将来のクエリシーケンスに対してほぼゼロの限界費用で Shapley 値と相互作用を推定する方法です。
SHAP ゼロは、シャプレー値と相互作用とモデルのフーリエ変換との間の驚くほど解明されていない関係を確立することによってこれを実現します。
2 つのゲノム モデル、1 つはガイド RNA 結合を予測するように訓練され、もう 1 つは DNA 修復の結果を予測するように説明し、SHAP ゼロが最先端のアルゴリズムと比較して償却計算コストの桁違いの削減を達成することを実証し、ほぼすべての予測を明らかにします。
モチーフ — 可能性のある相互作用の組み合わせ空間のために以前はアクセスできなかった発見。


With the rapid growth of large-scale machine learning models in genomics, Shapley values have emerged as a popular method for model explanations due to their theoretical guarantees. While Shapley values explain model predictions locally for an individual input query sequence, extracting biological knowledge requires global explanation across thousands of input sequences. This demands exponential model evaluations per sequence, resulting in significant computational cost and carbon footprint. Herein, we develop SHAP zero, a method that estimates Shapley values and interactions with a near-zero marginal cost for future queried sequences after paying a one-time fee for model sketching. SHAP zero achieves this by establishing a surprisingly underexplored connection between the Shapley values and interactions and the Fourier transform of the model. Explaining two genomic models, one trained to predict guide RNA binding and the other to predict DNA repair outcome, we demonstrate that SHAP zero achieves orders of magnitude reduction in amortized computational cost compared to state-of-the-art algorithms, revealing almost all predictive motifs — a finding previously inaccessible due to the combinatorial space of possible interactions.


著者 Darin Tsui,Aryan Musharaf,Yigit Efe Erginbas,Justin Singh Kang,Amirali Aghazadeh
発行日 2024-12-20 18:13:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CE, cs.LG, q-bio.GN, stat.CO パーマリンク