State Representation Learning Using an Unbalanced Atlas

要約

多様体仮説は、高次元のデータは低次元の多様体上に存在することが多く、この多様体をターゲット空間として利用するとより効率的な表現が得られると仮定します。
次元削減には従来の多様体ベースの手法が多数存在しますが、自己教師あり学習への応用は遅々として進んでいません。
最近の MSIMCLR 手法は、マニホールド エンコーディングと SimCLR を組み合わせたものですが、SimCLR を上回るパフォーマンスを得るために必要なターゲット エンコーディングの次元が非常に低く、その適用性が制限されています。
この論文では、最先端の自己教師あり学習アプローチを超えることができる、アンバランス アトラス (UA) を使用した新しい学習パラダイムを紹介します。
私たちは、プロセス全体を通じて厳密な科学的方法論を採用し、私たちが提案する UA パラダイムに合わせて時空間 DeepInfomax (ST-DIM) フレームワークを体系的に適応させることにより、アンバランス アトラス (DIM-UA) メソッドを使用して DeepInfomax を綿密に調査および設計しました。
DIM-UA の有効性は、Atari Annotated RAM Interface (Atari) ベンチマークでのトレーニングと評価を通じて実証されます。Atari ベンチマークは、表現学習用の注釈付き画像サンプルを生成する Atari 2600 フレームワークの修正バージョンです。
UA パラダイムは、ターゲットのエンコード次元の数が増加した場合に、既存のアルゴリズムを大幅に改善します。
たとえば、16384 個の隠れユニットを使用した場合、DIM-UA のカテゴリ全体で平均化された平均 F1 スコアは、ST-DIM の約 70% と比較して約 75% です。

要約(オリジナル)

The manifold hypothesis posits that high-dimensional data often lies on a lower-dimensional manifold and that utilizing this manifold as the target space yields more efficient representations. While numerous traditional manifold-based techniques exist for dimensionality reduction, their application in self-supervised learning has witnessed slow progress. The recent MSIMCLR method combines manifold encoding with SimCLR but requires extremely low target encoding dimensions to outperform SimCLR, limiting its applicability. This paper introduces a novel learning paradigm using an unbalanced atlas (UA), capable of surpassing state-of-the-art self-supervised learning approaches. We meticulously investigated and engineered the DeepInfomax with an unbalanced atlas (DIM-UA) method by systematically adapting the Spatiotemporal DeepInfomax (ST-DIM) framework to align with our proposed UA paradigm, employing rigorous scientific methodologies throughout the process. The efficacy of DIM-UA is demonstrated through training and evaluation on the Atari Annotated RAM Interface (AtariARI) benchmark, a modified version of the Atari 2600 framework that produces annotated image samples for representation learning. The UA paradigm improves the existing algorithm significantly when the number of target encoding dimensions grows. For instance, the mean F1 score averaged over categories of DIM-UA is ~75% compared to ~70% of ST-DIM when using 16384 hidden units.

arxiv情報

著者 Li Meng,Morten Goodwin,Anis Yazidi,Paal Engelstad
発行日 2023-05-17 14:58:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク