要約
情報ボトルネックは、ラベルに関する情報をできるだけ多く保持する最大限に圧縮された表現を学習することを目的とした表現学習の情報理論原理です。
この原理に基づいて、情報ボトルネック (IB) と決定論的情報ボトルネック (DIB) という 2 つの異なる方法が提案され、深層学習アルゴリズムの表現メカニズムの説明において大きな進歩が得られました。
ただし、これらの理論的および経験的な成功は、トレーニング データとテスト データが同じ分布から抽出されるという前提でのみ有効であり、現実世界の多くのアプリケーションでは明らかにこれが満たされません。
この論文では、転移学習シナリオ内での一般化能力を研究します。このシナリオでは、ターゲット誤差は、ソース経験的誤差、ソース汎化ギャップ (SG)、および表現不一致 (RD) の 3 つの要素に分解できます。
これらの条件で IB と DIB を比較すると、DIB の SG 境界は IB よりも厳しく、DIB の RD は IB よりも大きいことが証明されます。
したがって、どちらが優れているかを判断するのは困難です。
SG と RD の間のトレードオフのバランスをとるために、IB と DIB の正則化の間を補間する弾性情報ボトルネック (EIB) を提案します。これにより、IB フレームワーク内のパレート フロンティアが保証されます。
さらに、シミュレーションと実際のデータ実験では、EIB が IB や DIB よりも優れたドメイン適応結果を達成する能力があることを示しており、これにより私たちの理論の正しさが検証されます。
要約(オリジナル)
Information bottleneck is an information-theoretic principle of representation learning that aims to learn a maximally compressed representation that preserves as much information about labels as possible. Under this principle, two different methods have been proposed, i.e., information bottleneck (IB) and deterministic information bottleneck (DIB), and have gained significant progress in explaining the representation mechanisms of deep learning algorithms. However, these theoretical and empirical successes are only valid with the assumption that training and test data are drawn from the same distribution, which is clearly not satisfied in many real-world applications. In this paper, we study their generalization abilities within a transfer learning scenario, where the target error could be decomposed into three components, i.e., source empirical error, source generalization gap (SG), and representation discrepancy (RD). Comparing IB and DIB on these terms, we prove that DIB’s SG bound is tighter than IB’s while DIB’s RD is larger than IB’s. Therefore, it is difficult to tell which one is better. To balance the trade-off between SG and the RD, we propose an elastic information bottleneck (EIB) to interpolate between the IB and DIB regularizers, which guarantees a Pareto frontier within the IB framework. Additionally, simulations and real data experiments show that EIB has the ability to achieve better domain adaptation results than IB and DIB, which validates the correctness of our theories.
arxiv情報
著者 | Yuyan Ni,Yanyan Lan,Ao Liu,Zhiming Ma |
発行日 | 2023-11-07 12:53:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google