Poly-View Contrastive Learning

要約

対照学習では通常、多数の無関係な否定的なビューの中から関連するビューのペアが照合されます。
ビューは(拡張などにより)生成することも、観察することもできます。
ポリビュー タスクと呼ばれる 3 つ以上の関連するビューがある場合のマッチングを調査し、情報の最大化と十分な統計を使用して新しい表現学習目標を導き出します。
無制限の計算では、関連するビューの数を最大化する必要があり、固定の計算予算では、それらのサンプルのビュー数を増やしながら一意のサンプルの数を減らすことが有益であることを示します。
特に、バッチ サイズ 256 で 128 エポックでトレーニングされたポリビューのコントラスト モデルは、ImageNet1k 上でバッチ サイズ 4096 で 1024 エポックでトレーニングされた SimCLR を上回り、コントラスト モデルには大きなバッチ サイズと多くのトレーニング エポックが必要であるという考えに疑問を呈します。

要約(オリジナル)

Contrastive learning typically matches pairs of related views among a number of unrelated negative views. Views can be generated (e.g. by augmentations) or be observed. We investigate matching when there are more than two related views which we call poly-view tasks, and derive new representation learning objectives using information maximization and sufficient statistics. We show that with unlimited computation, one should maximize the number of related views, and with a fixed compute budget, it is beneficial to decrease the number of unique samples whilst increasing the number of views of those samples. In particular, poly-view contrastive models trained for 128 epochs with batch size 256 outperform SimCLR trained for 1024 epochs at batch size 4096 on ImageNet1k, challenging the belief that contrastive models require large batch sizes and many training epochs.

arxiv情報

著者 Amitis Shidani,Devon Hjelm,Jason Ramapuram,Russ Webb,Eeshan Gunesh Dhekane,Dan Busbridge
発行日 2024-03-08 17:55:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.IT, cs.LG, math.IT, stat.ML パーマリンク