Instruction Tuning-free Visual Token Complement for Multimodal LLMs

要約

大規模言語モデル (LLM) のオープン コミュニティが成熟するにつれて、マルチモーダル LLM (MLLM) は視覚と言語の間のエレガントな架け橋となることを約束しています。
しかし、現在の研究は、高品質の命令ペアの必要性や、画像からテキストへのトレーニング目標における視覚情報の損失などの課題によって本質的に制約を受けています。
この目的を達成するために、MLLM が不足している視覚的特徴を取り戻し、応答精度を向上させるのに役立つビジュアル トークン補完フレームワーク (VTC) を提案します。
具体的には、当社の VTC は、テキストに無関係な特徴を識別するためのガイドとしてテキストから画像への生成を統合し、その後、元の視覚入力を充実させるために補完的な視覚トークンを生成するビジュアル セレクターを開発します。
さらに、反復戦略は、追加のトレーニングなしで視覚セレクターを反復的に使用することによって、より多くの視覚情報を抽出するようにさらに設計されています。
特に、トレーニング パイプラインには追加の画像とテキストのペアが必要ないため、望ましい命令チューニング不要の特性が得られます。
定性的および定量的実験の両方で、当社の VTC の優位性と効率性が実証されています。

要約(オリジナル)

As the open community of large language models (LLMs) matures, multimodal LLMs (MLLMs) have promised an elegant bridge between vision and language. However, current research is inherently constrained by challenges such as the need for high-quality instruction pairs and the loss of visual information in image-to-text training objectives. To this end, we propose a Visual Token Complement framework (VTC) that helps MLLMs regain the missing visual features and thus improve response accuracy. Specifically, our VTC integrates text-to-image generation as a guide to identifying the text-irrelevant features, and a visual selector is then developed to generate complementary visual tokens to enrich the original visual input. Moreover, an iterative strategy is further designed to extract more visual information by iteratively using the visual selector without any additional training. Notably, the training pipeline requires no additional image-text pairs, resulting in a desired instruction tuning-free property. Both qualitative and quantitative experiments demonstrate the superiority and efficiency of our VTC.

arxiv情報

著者 Dongsheng Wang,Jiequan Cui,Miaoge Li,Wang Lin,Bo Chen,Hanwang Zhang
発行日 2024-08-09 12:13:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク