要約
特徴の選択は、分子システムや他の多くの分野の解析において不可欠ですが、いくつかの不確実性が残ります。重要な情報を保持した、単純化された解釈可能なモデルに最適な特徴の数はどれくらいでしょうか?
異なる単位を持つフィーチャをどのように調整する必要があるか、またそれらの相対的な重要性をどのように重み付けする必要があるでしょうか?
ここでは、特徴セット間で情報コンテンツをランク付けする自動化手法である、Differentiable Information Imbalance (DII) を紹介します。
DII は、グラウンド トゥルース フィーチャ空間の距離を使用して、これらの関係を最もよく保存するフィーチャの低次元サブセットを特定します。
各特徴は重みによってスケールされ、勾配降下法を通じて DII を最小化することによって最適化されます。
これにより、解釈可能性を維持しながら、単位の調整と相対重要度のスケーリングを同時に実行できるようになります。
DII は、スパース解を生成し、縮小された特徴空間の最適なサイズを決定することもできます。
我々は、(1) 生体分子の構造を記述する集団変数の特定、および (2) 機械学習力場をトレーニングするための特徴の選択という 2 つのベンチマーク分子問題に対するこのアプローチの有用性を実証します。
これらの結果は、さまざまなアプリケーションで機能選択の課題に対処し、次元を最適化する際の DII の可能性を示しています。
このメソッドは、Python ライブラリ DADApy で利用できます。
要約(オリジナル)
Feature selection is essential in the analysis of molecular systems and many other fields, but several uncertainties remain: What is the optimal number of features for a simplified, interpretable model that retains essential information? How should features with different units be aligned, and how should their relative importance be weighted? Here, we introduce the Differentiable Information Imbalance (DII), an automated method to rank information content between sets of features. Using distances in a ground truth feature space, DII identifies a low-dimensional subset of features that best preserves these relationships. Each feature is scaled by a weight, which is optimized by minimizing the DII through gradient descent. This allows simultaneously performing unit alignment and relative importance scaling, while preserving interpretability. DII can also produce sparse solutions and determine the optimal size of the reduced feature space. We demonstrate the usefulness of this approach on two benchmark molecular problems: (1) identifying collective variables that describe conformations of a biomolecule, and (2) selecting features for training a machine-learning force field. These results show the potential of DII in addressing feature selection challenges and optimizing dimensionality in various applications. The method is available in the Python library DADApy.
arxiv情報
著者 | Romina Wild,Felix Wodaczek,Vittorio Del Tatto,Bingqing Cheng,Alessandro Laio |
発行日 | 2024-12-30 15:38:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google