Network reconstruction via the minimum description length principle

要約

動的データまたは動作データからネットワークを再構築するタスクに関連する基本的な問題は、過学習を防止する方法で最も適切なモデルの複雑さを決定し、統計的に正当な数のエッジを持つ推定ネットワークを生成することにあります。
このコンテキストにおける現状は、相互検証と組み合わせた $L_{1}$ 正則化に基づいています。
ただし、このありふれたアプローチは、計算コストが高いことに加えて、スパース性の促進と重みの「縮小」を不必要に結びつけます。
この組み合わせにより、縮小によってもたらされるバイアスとネットワークの疎性との間でトレードオフが強制され、多くの場合、相互検証の後でも大幅な過剰適合が発生します。
この研究では、スパース性を促進するために重みの縮小に依存しない、階層ベイズ推論と重みの量子化に基づく代替のノンパラメトリック正則化スキームを提案します。
私たちのアプローチは、最小記述長 (MDL) の原則に従い、データの圧縮を最大限に可能にする重み分布を明らかにし、相互検証を必要とせずに過剰適合を回避します。
後者の特性により、完全なデータへの 1 回の適合が必要となるため、アプローチの採用が大幅に高速化されます。
その結果、エッジの数を事前に知っておく必要がなく、さまざまな生成モデルで使用できる原理に基づいた効率的な推論スキームが得られました。
また、私たちのスキームにより、人工ネットワークと経験的ネットワークの両方の再構築において体系的に精度が向上することも実証します。
$10^{4}$ から $10^{5}$ 程度の種を含む大規模な存在量サンプルからの微生物群集間の相互作用ネットワークの再構築による私たちの方法の使用を強調し、推定モデルがどのようにできるかを実証します。
システムへの介入の結果を予測するために使用されます。

要約(オリジナル)

A fundamental problem associated with the task of network reconstruction from dynamical or behavioral data consists in determining the most appropriate model complexity in a manner that prevents overfitting, and produces an inferred network with a statistically justifiable number of edges. The status quo in this context is based on $L_{1}$ regularization combined with cross-validation. However, besides its high computational cost, this commonplace approach unnecessarily ties the promotion of sparsity with weight ‘shrinkage’. This combination forces a trade-off between the bias introduced by shrinkage and the network sparsity, which often results in substantial overfitting even after cross-validation. In this work, we propose an alternative nonparametric regularization scheme based on hierarchical Bayesian inference and weight quantization, which does not rely on weight shrinkage to promote sparsity. Our approach follows the minimum description length (MDL) principle, and uncovers the weight distribution that allows for the most compression of the data, thus avoiding overfitting without requiring cross-validation. The latter property renders our approach substantially faster to employ, as it requires a single fit to the complete data. As a result, we have a principled and efficient inference scheme that can be used with a large variety of generative models, without requiring the number of edges to be known in advance. We also demonstrate that our scheme yields systematically increased accuracy in the reconstruction of both artificial and empirical networks. We highlight the use of our method with the reconstruction of interaction networks between microbial communities from large-scale abundance samples involving in the order of $10^{4}$ to $10^{5}$ species, and demonstrate how the inferred model can be used to predict the outcome of interventions in the system.

arxiv情報

著者 Tiago P. Peixoto
発行日 2024-05-07 16:54:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SI, physics.data-an, q-bio.PE, stat.ML パーマリンク