要約
最新のビジョン モデルは、汎用の下流タスクに優れています。
ただし、粒度が細かくデータが少ない個人向けの視覚タスクにそれらをどのように使用できるかは不明です。
最近の研究では、合成データを汎用表現学習に適用することに成功し、また、T2I 拡散モデルの進歩により、ほんの少数の実例からパーソナライズされた画像を生成できるようになりました。
ここでは、これらのアイデア間の潜在的なつながりを探り、パーソナライズされた合成データを使用してパーソナライズされた表現を学習するという課題を形式化します。これは、対象オブジェクトに関する知識をエンコードし、ターゲットオブジェクトに関連する下流のタスクに柔軟に適用できます。
我々は、2 つの既存のデータセットとこの目的のために明示的に構築された新しいデータセットの再定式化を含む、この課題に対する評価スイートを導入し、画像ジェネレーターを創造的に使用する対照学習アプローチを提案します。
私たちの方法が、認識からセグメンテーションに至るまでのさまざまな下流タスクのパーソナライズされた表現学習を改善することを示し、この向上の鍵となる画像生成アプローチの特性を分析します。
要約(オリジナル)
Modern vision models excel at general purpose downstream tasks. It is unclear, however, how they may be used for personalized vision tasks, which are both fine-grained and data-scarce. Recent works have successfully applied synthetic data to general-purpose representation learning, while advances in T2I diffusion models have enabled the generation of personalized images from just a few real examples. Here, we explore a potential connection between these ideas, and formalize the challenge of using personalized synthetic data to learn personalized representations, which encode knowledge about an object of interest and may be flexibly applied to any downstream task relating to the target object. We introduce an evaluation suite for this challenge, including reformulations of two existing datasets and a novel dataset explicitly constructed for this purpose, and propose a contrastive learning approach that makes creative use of image generators. We show that our method improves personalized representation learning for diverse downstream tasks, from recognition to segmentation, and analyze characteristics of image generation approaches that are key to this gain.
arxiv情報
著者 | Shobhita Sundaram,Julia Chae,Yonglong Tian,Sara Beery,Phillip Isola |
発行日 | 2024-12-20 18:59:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google