Statistically Valid Information Bottleneck via Multiple Hypothesis Testing

要約

情報ボトルネック (IB) 問題は、下流のタスクに役立つ圧縮された特徴を抽出するための機械学習で広く研究されているフレームワークです。
ただし、IB 問題を解決する現在のアプローチは、ハイパーパラメーターのヒューリスティックな調整に依存しており、学習された特徴が情報理論上の制約を満たすという保証はありません。
この研究では、利用可能なデータセットのサイズに関係なく、学習された特徴が高い確率で IB 制約を満たすことを保証する、多重仮説検定による IB (IB-MHT) と呼ばれる、この問題に対する統計的に有効な解決策を導入します。

提案された方法論は、パレート テストと学習後テスト (LTT) に基づいて構築されており、既存の IB ソルバーをラップして IB 制約に関する統計的保証を提供します。
我々は、古典的および決定論的な IB 定式化における IB-MHT のパフォーマンスを実証し、統計的な堅牢性と信頼性の点で従来の手法を上回る IB-MHT の有効性を検証します。

要約(オリジナル)

The information bottleneck (IB) problem is a widely studied framework in machine learning for extracting compressed features that are informative for downstream tasks. However, current approaches to solving the IB problem rely on a heuristic tuning of hyperparameters, offering no guarantees that the learned features satisfy information-theoretic constraints. In this work, we introduce a statistically valid solution to this problem, referred to as IB via multiple hypothesis testing (IB-MHT), which ensures that the learned features meet the IB constraints with high probability, regardless of the size of the available dataset. The proposed methodology builds on Pareto testing and learn-then-test (LTT), and it wraps around existing IB solvers to provide statistical guarantees on the IB constraints. We demonstrate the performance of IB-MHT on classical and deterministic IB formulations, validating the effectiveness of IB-MHT in outperforming conventional methods in terms of statistical robustness and reliability.

arxiv情報

著者 Amirmohammad Farzaneh,Osvaldo Simeone
発行日 2024-09-11 15:04:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, math.IT パーマリンク