要約
人間の会話では、他の人に話しかけながら、シーン内の関連する領域を示すことができる。その結果、相手は必要に応じて特定の領域を参照しながら応答することができる。対話におけるこの自然な参照能力は、現在のマルチモーダル大規模言語モデル(MLLM)には存在しない。このギャップを埋めるために、本稿ではShikraと呼ばれるMLLMを提案する。Shikraのアーキテクチャは、ビジョンエンコーダ、アライメント層、LLMから構成される。余計なボキャブラリー、位置エンコーダ、前後検出モジュール、外部プラグインモデルを必要とせず、単純明快に設計されている。すべての入力と出力は自然言語形式です。参照対話は、様々な視覚言語(VL)タスクのスーパーセットである。Shikraは、RECやPointQAのようなロケーション関連のタスクや、Image CaptioningやVQAのような従来のVLタスクを自然に扱うことができる。実験結果はShikraの有望な性能を示しています。さらに、思考の連鎖の中で言及されたオブジェクトの座標を提供したり、ユーザがポイントした領域の類似性を比較するなど、多くのエキサイティングなアプリケーションを可能にする。我々のコード、モデル、データセットはhttps://github.com/shikras/shikra。
要約(オリジナル)
In human conversations, individuals can indicate relevant regions within a scene while addressing others. In turn, the other person can then respond by referring to specific regions if necessary. This natural referential ability in dialogue remains absent in current Multimodal Large Language Models (MLLMs). To fill this gap, this paper proposes an MLLM called Shikra, which can handle spatial coordinate inputs and outputs in natural language. Its architecture consists of a vision encoder, an alignment layer, and a LLM. It is designed to be straightforward and simple, without the need for extra vocabularies, position encoder, pre-/post-detection modules, or external plug-in models. All inputs and outputs are in natural language form. Referential dialogue is a superset of various vision-language (VL) tasks. Shikra can naturally handle location-related tasks like REC and PointQA, as well as conventional VL tasks such as Image Captioning and VQA. Experimental results showcase Shikra’s promising performance. Furthermore, it enables numerous exciting applications, like providing mentioned objects’ coordinates in chains of thoughts and comparing user-pointed regions similarities. Our code, model and dataset are accessed at https://github.com/shikras/shikra.
arxiv情報
著者 | Keqin Chen,Zhao Zhang,Weili Zeng,Richong Zhang,Feng Zhu,Rui Zhao |
発行日 | 2023-07-03 16:08:00+00:00 |
arxivサイト | arxiv_id(pdf) |