Quantifying & Modeling Feature Interactions: An Information Decomposition Framework

要約

最近のマルチモーダル アプリケーションへの関心の高まりにより、さまざまな信号からの情報を表現および統合するためのデータセットと方法が幅広く選択されるようになりました。
これらの経験的進歩にもかかわらず、基本的な研究上の問題が残っています: 入力特徴間に存在する相互作用の性質をどのように定量化できるでしょうか?
その後、適切なデータ駆動型の方法を使用して、これらの相互作用をどのように捉えることができるでしょうか?
この質問に答えるために、入力機能全体の冗長性、一意性、および相乗効果の程度を定量化するための情報理論的アプローチを提案します。これをマルチモーダル分布の PID 統計と呼びます。
高次元分布にスケーリングする 2 つの新しく提案された推定量を使用して、マルチモーダル データセット内の相互作用の定量化、マルチモーダル モデルによってキャプチャされた相互作用の性質、およびモデル選択のための原則に基づいたアプローチにおけるそれらの有用性を示します。
PID統計が知られている合成データセットと、以前はPID推定が不可能だった大規模なマルチモーダルベンチマークの両方で広範な実験を行います。
最後に、私たちのアプローチの実世界での適用可能性を実証するために、病理学、気分予測、およびロボット認識の 3 つのケース スタディを紹介します。このケース スタディでは、フレームワークがアプリケーションごとに強力なマルチモーダル モデルを正確に推奨しています。

要約(オリジナル)

The recent explosion of interest in multimodal applications has resulted in a wide selection of datasets and methods for representing and integrating information from different signals. Despite these empirical advances, there remain fundamental research questions: how can we quantify the nature of interactions that exist among input features? Subsequently, how can we capture these interactions using suitable data-driven methods? To answer this question, we propose an information-theoretic approach to quantify the degree of redundancy, uniqueness, and synergy across input features, which we term the PID statistics of a multimodal distribution. Using 2 newly proposed estimators that scale to high-dimensional distributions, we demonstrate their usefulness in quantifying the interactions within multimodal datasets, the nature of interactions captured by multimodal models, and principled approaches for model selection. We conduct extensive experiments on both synthetic datasets where the PID statistics are known and on large-scale multimodal benchmarks where PID estimation was previously impossible. Finally, to demonstrate the real-world applicability of our approach, we present three case studies in pathology, mood prediction, and robotic perception where our framework accurately recommends strong multimodal models for each application.

arxiv情報

著者 Paul Pu Liang,Yun Cheng,Xiang Fan,Chun Kai Ling,Suzanne Nie,Richard Chen,Zihao Deng,Faisal Mahmood,Ruslan Salakhutdinov,Louis-Philippe Morency
発行日 2023-02-23 18:59:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.IT, cs.LG, math.IT パーマリンク