CoVLM: Composing Visual Entities and Relationships in Large Language Models Via Communicative Decoding

要約

人間の顕著な能力は構成的推論、すなわち「有限な手段を無限に利用する」能力にある。しかし、現在の大規模な視覚言語基礎モデル(VLM)は、その「単語の袋詰め」動作や、視覚的実体や実体間の関係を正しく表現する単語を構築できないために、このような構成的能力に欠けている。このため、我々はCoVLMを提案する。CoVLMは、LLMが視覚的実体とテキスト間の関係を明示的に構成するように誘導し、視覚エンコーダと検出ネットワークと動的に通信することで、視覚言語によるコミュニケーション復号を実現する。具体的には、まず、視覚検出システムと言語システム間の動的な通信のために、LLMのための新しい通信トークンのセットを考案する。コミュニケーション・トークンは、LLMが視覚的実体や関係に続いて生成し、検出ネットワークに、これまでに生成された文に関連する領域を提案するよう通知する。提案された関心領域(ROI)はLLMにフィードバックされ、関連領域に基づいてより良い言語生成が行われる。LLMはこのようにして、コミュニケーション・トークンを通して視覚的実体と関係を構成することができる。視覚から言語へ、言語から視覚へのコミュニケーションは、文全体が生成されるまで繰り返し実行される。我々のフレームワークは、視覚認識とLLMの間のギャップをシームレスに橋渡しし、構成推論ベンチマークにおいて従来のVLMを大差で凌駕する(例えば、HICO-DET mAPで〜20%、Cola top-1精度で〜14%、ARO top-1精度で〜3%)。また、参照表現理解や視覚的質問応答などの伝統的な視覚言語タスクにおいても、最先端の性能を達成している。

要約(オリジナル)

A remarkable ability of human beings resides in compositional reasoning, i.e., the capacity to make ‘infinite use of finite means’. However, current large vision-language foundation models (VLMs) fall short of such compositional abilities due to their ‘bag-of-words’ behaviors and inability to construct words that correctly represent visual entities and the relations among the entities. To this end, we propose CoVLM, which can guide the LLM to explicitly compose visual entities and relationships among the text and dynamically communicate with the vision encoder and detection network to achieve vision-language communicative decoding. Specifically, we first devise a set of novel communication tokens for the LLM, for dynamic communication between the visual detection system and the language system. A communication token is generated by the LLM following a visual entity or a relation, to inform the detection network to propose regions that are relevant to the sentence generated so far. The proposed regions-of-interests (ROIs) are then fed back into the LLM for better language generation contingent on the relevant regions. The LLM is thus able to compose the visual entities and relationships through the communication tokens. The vision-to-language and language-to-vision communication are iteratively performed until the entire sentence is generated. Our framework seamlessly bridges the gap between visual perception and LLMs and outperforms previous VLMs by a large margin on compositional reasoning benchmarks (e.g., ~20% in HICO-DET mAP, ~14% in Cola top-1 accuracy, and ~3% on ARO top-1 accuracy). We also achieve state-of-the-art performances on traditional vision-language tasks such as referring expression comprehension and visual question answering.

arxiv情報

著者 Junyan Li,Delin Chen,Yining Hong,Zhenfang Chen,Peihao Chen,Yikang Shen,Chuang Gan
発行日 2023-11-06 18:59:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク