要約
GPT-4 のように、Large Visual Language Model (LVLM) を最初からトレーニングすると、リソースが大量に消費されます。
私たちの論文では、画像理解機能を LLM に組み込むことで LVLM を実現することを目的とした、大規模言語モデル (LLM) 用のプレイアンドプラグ モジュール、つまり対話型知覚ネットワーク (IPN) を紹介します。
これまでの方法では、単純な視覚マッピング ネットワークを使用して視覚情報を LLM に組み込み、画像の特徴が線形層を介して LLM の埋め込み空間に投影されていました。
このようなマッピング ネットワークは、画像の特徴を一度投影しますが、画像と人間の入力クエリの間の相互作用は考慮していません。
したがって、人間の意図と関係のない取得された視覚情報は、LLM が意図に従う応答を行うには不適切である可能性があり、これを静的視覚情報と呼びます。
IPN は、人間のさまざまな指示に合わせて LLM が必要な視覚情報を要求できるようにすることで、この問題に対処します。これを、LLM と視覚情報の間の動的な相互作用と呼びます。
具体的には、IPN は、LLM に画像の基本的な認識を提供する単純なビジュアル マッピング ネットワークで構成されています。
また、LLM からのリクエストの取得、リクエストベースの視覚情報対話の実行、および対話された結果の視覚情報の LLM への送信をそれぞれ担当する追加モジュールも含まれています。
このようにして、LLM は人間のクエリを理解し、対応する要求を要求ベースの視覚情報対話モジュールに配信し、インターリーブされたマルチモーダル情報に基づいて応答を生成するように機能します。
私たちは、マルチモーダルな質問応答、推論などに関する広範な実験を通じて IPN を評価し、さまざまなマルチモーダルなタスクにおける LVLM のゼロショット パフォーマンスが以前の方法と比較して大幅に向上することを実証しました。
要約(オリジナル)
Training a Large Visual Language Model (LVLM) from scratch, like GPT-4, is resource-intensive. Our paper presents a play-and-plug module for Large Language Models (LLMs), namely Interactive Perception Network (IPN), aiming to achieve a LVLM by incorporating the image understanding capability into LLMs. Previous methods incorporate visual information into LLMs with a simple visual mapping network, where the image feature is projected into the embedding space of LLMs via a linear layer. Such mapping network projects the image feature once yet does not consider the interaction between the image and the human input query. Hence, the obtained visual information with no connections with human intention may be inadequate for LLMs to make intention-following responses, which we term as static visual information. IPN addresses this issue by allowing the LLM to request the desired visual information aligned with various human instructions, which we term as the dynamic interaction between the LLM and visual information. Specifically, IPN consists of a simple visual mapping network to provide the basic perception of an image for LLMs. It also contains additional modules responsible for acquiring requests from LLMs, performing request-based visual information interaction, and transmitting the resulting interacted visual information to LLMs, respectively. In this way, LLMs act to understand the human query, deliver the corresponding request to the request-based visual information interaction module, and generate the response based on the interleaved multimodal information. We evaluate IPN through extensive experiments on multimodal question answering, reasoning, and so on, demonstrating that it significantly improves the zero-shot performance of LVLMs on various multimodal tasks compared to previous methods.
arxiv情報
著者 | Yunxin Li,Baotian Hu,Xinyu Chen,Lin Ma,Min Zhang |
発行日 | 2023-05-19 05:42:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google