The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)

要約

大規模マルチモーダル モデル (LMM) は、視覚的理解などの多感覚スキルを備えた大規模言語モデル (LLM) を拡張して、より強力な汎用インテリジェンスを実現します。
本稿では、LMM についての理解を深めるために、最新モデル GPT-4V(ision) を分析します。
この分析は、GPT-4V が実行できる興味深いタスクに焦点を当てており、GPT-4V の機能の品質と汎用性、サポートされている入力と動作モード、モデルをプロンプトする効果的な方法を調査するためのテスト サンプルが含まれています。
GPT-4V を探索するアプローチでは、さまざまなドメインやタスクにわたる、慎重に設計された定性サンプルのコレクションを厳選し、整理します。
これらのサンプルからの観察は、任意にインターリーブされたマルチモーダル入力を処理する GPT-4V の前例のない能力とその機能の汎用性により、GPT-4V が強力なマルチモーダル ジェネラリスト システムであることを示しています。
さらに、入力画像上に描かれた視覚マーカーを理解する GPT-4V の独自の機能は、視覚的な参照プロンプトなどの新しい人間とコンピューターの対話方法を生み出す可能性があります。
GPT-4V ベースのシステムの新たなアプリケーション シナリオと将来の研究の方向性についての詳細な議論でレポートを締めくくります。
この予備調査が、次世代のマルチモーダル タスクの定式化、現実世界の問題を解決するために LMM を活用および強化する新しい方法、およびマルチモーダル基盤モデルのより良い理解に関する将来の研究に刺激を与えることを願っています。

要約(オリジナル)

Large multimodal models (LMMs) extend large language models (LLMs) with multi-sensory skills, such as visual understanding, to achieve stronger generic intelligence. In this paper, we analyze the latest model, GPT-4V(ision), to deepen the understanding of LMMs. The analysis focuses on the intriguing tasks that GPT-4V can perform, containing test samples to probe the quality and genericity of GPT-4V’s capabilities, its supported inputs and working modes, and the effective ways to prompt the model. In our approach to exploring GPT-4V, we curate and organize a collection of carefully designed qualitative samples spanning a variety of domains and tasks. Observations from these samples demonstrate that GPT-4V’s unprecedented ability in processing arbitrarily interleaved multimodal inputs and the genericity of its capabilities together make GPT-4V a powerful multimodal generalist system. Furthermore, GPT-4V’s unique capability of understanding visual markers drawn on input images can give rise to new human-computer interaction methods such as visual referring prompting. We conclude the report with in-depth discussions on the emerging application scenarios and the future research directions for GPT-4V-based systems. We hope that this preliminary exploration will inspire future research on the next-generation multimodal task formulation, new ways to exploit and enhance LMMs to solve real-world problems, and gaining better understanding of multimodal foundation models.

arxiv情報

著者 Zhengyuan Yang,Linjie Li,Kevin Lin,Jianfeng Wang,Chung-Ching Lin,Zicheng Liu,Lijuan Wang
発行日 2023-09-29 17:34:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク