要約
大規模言語モデル (LLM) は、ユーザーに合わせたタスクに対する優れたゼロショット能力により、汎用人工知能 (AGI) への進歩を著しく加速させ、さまざまなアプリケーションにわたって計り知れない可能性をもたらします。
しかし、コンピューター ビジョンの分野では、多数の強力なビジョン基盤モデル (VFM) が利用可能であるにもかかわらず、それらは依然として事前定義された形式のタスクに制限されており、LLM の無制限のタスク機能に匹敵するのに苦労しています。
この研究では、VisionLLM と呼ばれる、ビジョン中心のタスク用の LLM ベースのフレームワークを紹介します。
このフレームワークは、画像を外国語として扱い、言語指示を使用して柔軟に定義および管理できる言語タスクと視覚中心のタスクを連携させることにより、視覚および言語タスクに統一された視点を提供します。
LLM ベースのデコーダは、オープンエンド タスクに対するこれらの命令に基づいて適切な予測を行うことができます。
広範な実験により、提案された VisionLLM は、言語命令を通じて、きめの細かいオブジェクト レベルのカスタマイズから、きめの細かいタスク レベルのカスタマイズまで、さまざまなレベルのタスク カスタマイズを達成でき、すべて良好な結果が得られることが示されています。
汎用的な LLM ベースのフレームワークを使用することで、私たちのモデルが COCO で検出固有のモデルと同等の 60\% 以上の mAP を達成できることは注目に値します。
このモデルがジェネラリストのビジョンと言語モデルの新しいベースラインを設定できることを願っています。
デモは https://github.com/OpenGVLab/InternGPT に基づいて公開されます。
コードは https://github.com/OpenGVLab/VisionLLM でリリースされます。
要約(オリジナル)
Large language models (LLMs) have notably accelerated progress towards artificial general intelligence (AGI), with their impressive zero-shot capacity for user-tailored tasks, endowing them with immense potential across a range of applications. However, in the field of computer vision, despite the availability of numerous powerful vision foundation models (VFMs), they are still restricted to tasks in a pre-defined form, struggling to match the open-ended task capabilities of LLMs. In this work, we present an LLM-based framework for vision-centric tasks, termed VisionLLM. This framework provides a unified perspective for vision and language tasks by treating images as a foreign language and aligning vision-centric tasks with language tasks that can be flexibly defined and managed using language instructions. An LLM-based decoder can then make appropriate predictions based on these instructions for open-ended tasks. Extensive experiments show that the proposed VisionLLM can achieve different levels of task customization through language instructions, from fine-grained object-level to coarse-grained task-level customization, all with good results. It’s noteworthy that, with a generalist LLM-based framework, our model can achieve over 60\% mAP on COCO, on par with detection-specific models. We hope this model can set a new baseline for generalist vision and language models. The demo shall be released based on https://github.com/OpenGVLab/InternGPT. The code shall be released at https://github.com/OpenGVLab/VisionLLM.
arxiv情報
著者 | Wenhai Wang,Zhe Chen,Xiaokang Chen,Jiannan Wu,Xizhou Zhu,Gang Zeng,Ping Luo,Tong Lu,Jie Zhou,Yu Qiao,Jifeng Dai |
発行日 | 2023-05-25 15:02:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google