要約
タイトル:細粒度の地域プロンプトチューニングによる視覚的アブダクティブ推論
要約:
– Visual Abductive Reasoning(VAR)は、視覚入力(画像または画像の一部)から事前知識または常識に基づく逆推論によって、可能性の高いテキストの仮説を取得/生成する必要があるビジョン言語(VL)の新興トピックです。
– VARは、従来のVL検索またはキャプションタスクとは異なり、テキストのエンティティが画像に表示される場合がありますが、推論に関する重要な事実は入力画像で直接見ることはできません。また、推論は地域的な視覚ヒントと因果関係があり、それによって変化します。
– 既存の方法では、CLIPのような基礎モデルの上に特定のプロンプトチューニング技術(例:カラフルプロンプトチューニング)を使用して、ビジュアルパーツをグローバルバックグラウンドから強調表示します。しかし、これらの方法は、地域的ヒントとグローバルコンテキストを同じ粒度レベルで一様に分割し、アブダクティブ推論に重要な細かい視覚の詳細を失う可能性があります。
– これを解決するために、私たちは細かいグレインレベルと粗いグレインレベルでそれぞれ「地域的な視覚的ヒント」と「グローバルコンテキスト」を別々にエンコードするシンプルかつ効果的な「地域的なプロンプトチューニング」を提案しています。具体的には、モデルは明示的にローカルヒントをアップサンプリングして細かい地域のプロンプトを作成し、これらのプロンプトを全画像からの粗い粒度のコンテキストトークンと連結します。
– また、トレーニング中にビジュアルフィーチャーを事実説明のフィーチャー(クルーテキスト)と可能性のある仮説のフィーチャー(アブダクティブ推論テキスト)に同時に回帰する新しいDual-Contrastive Lossをモデルに装備しています。
– Sherlockデータセット上の広範な実験により、完全にチューニングされたRGP / RGPsおよびDual-Contrastive損失を使用する方法が以前のSOTAを大幅に超え、すべてのメトリック(P@1 $ _ {i->t} $:RGPs 38.78 vs CPT-CLIP 33.44、高い=ベター)の中でアブダクティブ推論リーダーボードで1位を獲得したことが示されました。私たちはコードをオープンソース化して、さらなる研究に供する予定です。
要約(オリジナル)
Visual Abductive Reasoning (VAR) is an emerging vision-language (VL) topic where the model needs to retrieve/generate a likely textual hypothesis from a visual input (image or part of an image) using backward reasoning based on prior knowledge or commonsense. Unlike in conventional VL retrieval or captioning tasks, where entities of texts appear in the image, in abductive inferences, the relevant facts about inferences are not directly visible in the input images. Besides, the inferences are causally relevant to regional visual hints and vary with the latter. Existing works highlight visual parts from a global background with specific prompt tuning techniques (e.g., colorful prompt tuning) on top of foundation models, like CLIP. However, these methods uniformly patchify ‘regional hints’ and ‘global context’ at the same granularity level and may lose fine-grained visual details significant for abductive reasoning. To tackle this, we propose a simple yet effective Regional Prompt Tuning, which encodes ‘regional visual hints’ and ‘global contexts’ separately at fine and coarse-grained levels. Specifically, our model explicitly upsamples, then patchify local hints to get fine-grained regional prompts. These prompts are concatenated with coarse-grained contextual tokens from whole images. We also equip our model with a new Dual-Contrastive Loss to regress the visual feature simultaneously toward features of factual description (a.k.a. clue text) and plausible hypothesis (abductive inference text) during training. Extensive experiments on the Sherlock dataset demonstrate that our fully fine-tuned RGP/RGPs with Dual-Contrastive Loss significantly outperforms previous SOTAs, achieving the 1 rank on abductive reasoning leaderboards among all submissions, under all metrics (e.g., P@1$_{i->t}$: RGPs 38.78 vs CPT-CLIP 33.44, higher=better). We would open-source our codes for further research.
arxiv情報
| 著者 | Hao Zhang,Basura Fernando | 
| 発行日 | 2023-04-17 16:05:27+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, OpenAI
