When and How Does CLIP Enable Domain and Compositional Generalization?

要約

クリップのような対照的なビジョン言語モデルの顕著な一般化パフォーマンスは、多くの場合、トレーニング分布の多様性に起因します。
ただし、重要な質問は未回答のままです。ドメインの多様な混合物(ドメイン一般化)で訓練された場合、クリップは完全に見えないドメインに一般化できますか?
部分的に見られたドメイン内の目に見えないクラス(構成一般化)に一般化できますか?
そのような一般化に影響する要因は何ですか?
これらの質問に答えるために、制御されたドメインの多様性とオブジェクトクラスの露出を備えた体系的に構築されたトレーニング分布のクリップモデルをトレーニングしました。
私たちの実験は、ドメインの多様性がドメインと構成の一般化の両方に不可欠であることを示していますが、トレーニング分布にテストドメインの準最適なサブセットが含まれている場合、組成の一般化はドメイン一般化よりも驚くほど弱くなる可能性があります。
データ中心および機械的分析を通じて、一般化が成功するには、中間層と共有回路ですでに共有表現を学習する必要があることがわかります。

要約(オリジナル)

The remarkable generalization performance of contrastive vision-language models like CLIP is often attributed to the diversity of their training distributions. However, key questions remain unanswered: Can CLIP generalize to an entirely unseen domain when trained on a diverse mixture of domains (domain generalization)? Can it generalize to unseen classes within partially seen domains (compositional generalization)? What factors affect such generalization? To answer these questions, we trained CLIP models on systematically constructed training distributions with controlled domain diversity and object class exposure. Our experiments show that domain diversity is essential for both domain and compositional generalization, yet compositional generalization can be surprisingly weaker than domain generalization when the training distribution contains a suboptimal subset of the test domain. Through data-centric and mechanistic analyses, we find that successful generalization requires learning of shared representations already in intermediate layers and shared circuitry.

arxiv情報

著者 Elias Kempf,Simon Schrodi,Max Argus,Thomas Brox
発行日 2025-02-13 17:21:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク