要約
Visual In-Context Learning (ICL) は、限られた例のペアを使用して類推を通じてさまざまなタスクを実行できるため、有望な研究分野として浮上しています。
ただし、トレーニングベースのビジュアル ICL は、目に見えないタスクに一般化する能力に限界があり、多様なタスク データセットの収集が必要です。
一方、推論ベースのビジュアル ICL カテゴリの既存の方法は、テキスト プロンプトのみに依存しているため、与えられた例から詳細なコンテキスト情報を取得できず、画像からテキスト プロンプトに変換するときに時間がかかる可能性があります。
これらの課題に対処するために、画像修復用に事前トレーニングされたテキストから画像への拡散モデルを使用して、視覚的プロンプト技術とテキストプロンプト技術の両方を活用する、新しい推論ベースのビジュアル ICL アプローチである Analogist を提案します。
視覚的なプロンプトについては、画像例間のきめの細かい構造レベルの類似性をガイドするセルフ アテンション クローン (SAC) 手法を提案します。
テキストプロンプトの場合、GPT-4V の視覚的推論機能を活用してテキストプロンプトを効率的に生成し、クロスアテンションマスキング (CAM) 操作を導入して、テキストプロンプトによって導かれる意味レベルの類推の精度を高めます。
私たちの方法はすぐに使用できるため、微調整や最適化は必要ありません。
また、汎用的かつ柔軟であるため、さまざまな視覚的なタスクをコンテキスト内で実行できます。
広範な実験により、定性的および定量的の両方で、既存のアプローチに対する私たちの方法の優位性が実証されています。
要約(オリジナル)
Visual In-Context Learning (ICL) has emerged as a promising research area due to its capability to accomplish various tasks with limited example pairs through analogical reasoning. However, training-based visual ICL has limitations in its ability to generalize to unseen tasks and requires the collection of a diverse task dataset. On the other hand, existing methods in the inference-based visual ICL category solely rely on textual prompts, which fail to capture fine-grained contextual information from given examples and can be time-consuming when converting from images to text prompts. To address these challenges, we propose Analogist, a novel inference-based visual ICL approach that exploits both visual and textual prompting techniques using a text-to-image diffusion model pretrained for image inpainting. For visual prompting, we propose a self-attention cloning (SAC) method to guide the fine-grained structural-level analogy between image examples. For textual prompting, we leverage GPT-4V’s visual reasoning capability to efficiently generate text prompts and introduce a cross-attention masking (CAM) operation to enhance the accuracy of semantic-level analogy guided by text prompts. Our method is out-of-the-box and does not require fine-tuning or optimization. It is also generic and flexible, enabling a wide range of visual tasks to be performed in an in-context manner. Extensive experiments demonstrate the superiority of our method over existing approaches, both qualitatively and quantitatively.
arxiv情報
著者 | Zheng Gu,Shiyuan Yang,Jing Liao,Jing Huo,Yang Gao |
発行日 | 2024-05-16 17:59:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google