ChatSpot: Bootstrapping Multimodal LLMs via Precise Referring Instruction Tuning

要約

人間と AI の対話性は、マルチモーダル大規模言語モデル (MLLM) の使いやすさを反映する重要な側面です。
ただし、既存のエンドツーエンド MLLM では、ユーザーは言語命令を通じてのみ対話できるため、対話の精度と効率が制限されます。
本研究では、特殊領域を参照するための参照プロンプトとして、点やボックスなどの多様な参照表現を利用した正確な参照指示を提案する。
これにより、MLLM は対象領域に焦点を当て、よりきめ細かい対話を実現できます。
正確な参照指示に基づいて、マウスのクリック、ドラッグ アンド ドロップ、ボックスの描画などのさまざまな形式の対話性をサポートする、統合されたエンドツーエンドのマルチモーダル大規模言語モデルである ChatSpot を提案します。これにより、より柔軟でシームレスな対話型エクスペリエンスが提供されます。

また、既存のデータセットと GPT-4 生成に基づいて、マルチグレイン ビジョン言語命令追従データセットを構築します。
さらに、領域認識とインタラクションの有効性を評価するための一連の評価タスクを設計します。
実験結果は、ChatSpot の有望なパフォーマンスを示しています。

要約(オリジナル)

Human-AI interactivity is a critical aspect that reflects the usability of multimodal large language models (MLLMs). However, existing end-to-end MLLMs only allow users to interact with them through language instructions, leading to the limitation of the interactive accuracy and efficiency. In this study, we present precise referring instructions that utilize diverse reference representations such as points and boxes as referring prompts to refer to the special region. This enables MLLMs to focus on the region of interest and achieve finer-grained interaction. Based on precise referring instruction, we propose ChatSpot, a unified end-to-end multimodal large language model that supports diverse forms of interactivity including mouse clicks, drag-and-drop, and drawing boxes, which provides a more flexible and seamless interactive experience. We also construct a multi-grained vision-language instruction-following dataset based on existing datasets and GPT-4 generating. Furthermore, we design a series of evaluation tasks to assess the effectiveness of region recognition and interaction. Experimental results showcase ChatSpot’s promising performance.

arxiv情報

著者 Liang Zhao,En Yu,Zheng Ge,Jinrong Yang,Haoran Wei,Hongyu Zhou,Jianjian Sun,Yuang Peng,Runpei Dong,Chunrui Han,Xiangyu Zhang
発行日 2023-07-18 17:56:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク