Inferring High-Order Couplings with Neural Networks

要約

統計力学の逆イジング/ポッツ問題に根ざした最大エントロピー法は、生物情報学、生態学、神経科学などの分野でペア相互作用をモデル化するために不可欠なツールとなっています。
これらの手法は目覚ましい成功を収めているにもかかわらず、複雑なシステムにおいて重要な高次の相互作用を見落とすことがよくあります。
逆に、最新の機械学習アプローチはそのような相互作用を捕捉できますが、既存の解釈可能なフレームワークは計算コストが高く、現実世界のシナリオにおける高次の相互作用の関連性を評価することは非現実的です。
制限付きボルツマン マシン (RBM) は、二部ニューラル ネットワークの隠れノードを介して統計的相関をエンコードすることにより、計算効率の高い代替手段を提供します。
ここでは、任意の高次の相互作用を持つ一般化ポッツ モデルに RBM を正確にマッピングする方法を紹介します。
このアプローチは、RBM のシンプルなアーキテクチャによって促進される大規模 $N$ 近似を活用し、最小限の計算コストで効果的な多体結合を効率的に抽出できるようにします。
このマッピングにより、任意の複雑な確率モデルにおける効果的な高次相互作用を抽出するための一般的な形式的フレームワークの開発も可能になります。
さらに、一般化されたポッツ モデル内でゲージ固定のための堅牢な形式主義を導入します。
合成データセットから 2 体および 3 体の相互作用を正確に復元することで、この方法を検証します。
さらに、私たちのフレームワークをタンパク質配列データに適用すると、タンパク質接触マップの再構築におけるその有効性が実証され、最先端の逆ポッツモデルに匹敵するパフォーマンスが達成されます。
これらの結果により、RBM は複雑なシステムにおける高次相互作用を調査するための強力かつ効率的なツールとして位置づけられます。

要約(オリジナル)

Maximum-entropy methods, rooted in the inverse Ising/Potts problem from statistical mechanics, have become indispensable tools for modeling pairwise interactions in disciplines such as bioinformatics, ecology, and neuroscience. Despite their remarkable success, these methods often overlook high-order interactions that may be crucial in complex systems. Conversely, while modern machine learning approaches can capture such interactions, existing interpretable frameworks are computationally expensive, making it impractical to assess the relevance of high-order interactions in real-world scenarios. Restricted Boltzmann Machines (RBMs) offer a computationally efficient alternative by encoding statistical correlations via hidden nodes in a bipartite neural network. Here, we present a method that maps RBMs exactly onto generalized Potts models with interactions of arbitrary high order. This approach leverages large-$N$ approximations, facilitated by the simple architecture of the RBM, to enable the efficient extraction of effective many-body couplings with minimal computational cost. This mapping also enables the development of a general formal framework for the extraction of effective higher-order interactions in arbitrarily complex probabilistic models. Additionally, we introduce a robust formalism for gauge fixing within the generalized Potts model. We validate our method by accurately recovering two- and three-body interactions from synthetic datasets. Additionally, applying our framework to protein sequence data demonstrates its effectiveness in reconstructing protein contact maps, achieving performance comparable to state-of-the-art inverse Potts models. These results position RBMs as a powerful and efficient tool for investigating high-order interactions in complex systems.

arxiv情報

著者 Aurélien Decelle,Alfonso de Jesús Navas Gómez,Beatriz Seoane
発行日 2025-01-10 17:01:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cond-mat.stat-mech, cs.LG パーマリンク