要約
大規模なマルチモーダル表現学習により、テスト時のゼロショット転送の最適化に成功しました。
しかし、標準的な事前トレーニング パラダイム (大量の画像テキスト データに対する対照学習) は、表現が少数ショットの適応をサポートすることを明示的に奨励していません。
この研究では、表現が追加のコンテキストに対応できるようにする、シンプルだが慎重に設計されたマルチモーダル事前トレーニングの拡張機能を提案します。
この目的を使用して、視覚言語モデルをトレーニングして少数ショット適応の大幅な向上を示すことができることを示します。21 の下流タスク全体で、テスト時のサンプル効率と平均少数ショット適応ゲインが最大 4 倍向上していることがわかりました。
モデルのスケールとトレーニング期間全体でゼロショット汎化パフォーマンスを維持しながら、5% 以上のパフォーマンスを実現します。
特に、シンプルでトレーニング不要のメトリックベースの適応メカニズムを備えた私たちの表現は、より複雑で高価な最適化ベースのスキームを容易に上回り、新しいドメインへの一般化を大幅に簡素化します。
要約(オリジナル)
Large-scale multimodal representation learning successfully optimizes for zero-shot transfer at test time. Yet the standard pretraining paradigm (contrastive learning on large amounts of image-text data) does not explicitly encourage representations to support few-shot adaptation. In this work, we propose a simple, but carefully designed extension to multimodal pretraining which enables representations to accommodate additional context. Using this objective, we show that vision-language models can be trained to exhibit significantly increased few-shot adaptation: across 21 downstream tasks, we find up to four-fold improvements in test-time sample efficiency, and average few-shot adaptation gains of over 5%, while retaining zero-shot generalization performance across model scales and training durations. In particular, equipped with simple, training-free, metric-based adaptation mechanisms, our representations easily surpass more complex and expensive optimization-based schemes, vastly simplifying generalization to new domains.
arxiv情報
著者 | Karsten Roth,Zeynep Akata,Dima Damen,Ivana Balažević,Olivier J. Hénaff |
発行日 | 2024-11-22 17:55:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google