Chain of Thought Prompt Tuning in Vision Language Models

要約

タイトル: Chain of Thought Prompt Tuning in Vision Language Models

要約:
– 言語 – 画像プレトレーニングは、自然言語プロンプトを使用して視覚モデルを促進することにより、ゼロショットおよびフューショットのダウンストリームタスクで有望な結果を示している。
– ただし、最近のほとんどの研究では、複雑なタスク設定、例えば、不慣れな領域からの画像処理時に人間が行う固有のステップバイステップの認知的推論プロセスを無視して、チューニングのために単一のプロンプトしか使用しない。
– Chain of Thoughtは、自然言語処理(NLP)タスクに有用であることが証明されている、人間の推論プロセスの単純で効果的な近似である。
– この認知的な直感に基づいて、効果的な推論を行うことも視覚タスクにとって重要な問題であり、Chain of Thoughtがこの問題の解決策になる可能性があると考えている。
– 本研究では、ビジョン – 言語モデリングのための革新的なChain of Thoughtプロンプトチューニングを提案している。
– 広範な実験により、私たちの方法が画像分類タスクでより一般的で、単一のデータセットを超えてより強力なドメイン汎化性能を持ち、より多くの推論能力を必要とする画像テキスト検索と視覚的な質問に関してもはるかに優れていることが示されている。
– 私たちは、視覚的およびテキストの埋め込みを組み合わせたChain of Thoughtプロンプトングを成功裏に適応した最初のグループです。
– コードは公開される。

要約(オリジナル)

Language-Image Pre-training has demonstrated promising results on zero-shot and few-shot downstream tasks by prompting visual models with natural language prompts. However, most recent studies only use a single prompt for tuning, neglecting the inherent step-to-step cognitive reasoning process that humans conduct in complex task settings, for example, when processing images from unfamiliar domains. Chain of Thought is a simple and effective approximation to human reasoning process and has been proven useful for natural language processing (NLP) tasks. Based on this cognitive intuition, we believe that conducting effective reasoning is also an important problem in visual tasks, and a chain of thought could be a solution to this problem. In this work, we propose a novel chain of thought prompt tuning for vision-language modeling. Extensive experiments show that our method not only generalizes better in image classification tasks, has greater transferability beyond a single dataset, and has stronger domain generalization performance, but also performs much better in imagetext retrieval and visual question answering, which require more reasoning capabilities. We are the first to successfully adapt chain-of-thought prompting that combines visual and textual embeddings. We will release our codes

arxiv情報

著者 Jiaxin Ge,Hongyin Luo,Siyuan Qian,Yulu Gan,Jie Fu,Shanghang Zhan
発行日 2023-04-16 23:59:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク