The All-Seeing Project V2: Towards General Relation Comprehension of the Open World

要約

私たちは、画像内のオブジェクトの関係を理解するために設計された新しいモデルとデータセットである All-Seeing プロジェクト V2 を紹介します。
具体的には、テキスト生成、オブジェクト位置特定、および関係理解の定式化を関係会話 (ReC) タスクに統合する All-Seeing Model V2 (ASMv2) を提案します。
この統一されたタスクを活用することで、私たちのモデルは、画像内のすべてのオブジェクトを知覚して認識するだけでなく、オブジェクト間の複雑な関係グラフを把握することにも優れており、マルチモーダル大規模言語モデル (MLLM) がよく遭遇する関係幻覚を軽減します。
関係理解における MLLM のトレーニングと評価を容易にするために、標準的な命令チューニング データの形式に合わせた最初の高品質 ReC データセット ({AS-V2) を作成しました。
さらに、MLLM の関係理解能力を包括的に評価するために、循環ベースの関係プローブ評価 (CRPE) と呼ばれる新しいベンチマークを設計します。
特に、この関係認識ベンチマークでは、ASMv2 は全体の精度 52.04 を達成しており、LLaVA-1.5 の 43.14 を大幅に上回っています。
私たちの研究が将来のさらなる研究にインスピレーションを与え、汎用人工知能への進化に貢献できることを願っています。
私たちのプロジェクトは https://github.com/OpenGVLab/all-seeing でリリースされています。

要約(オリジナル)

We present the All-Seeing Project V2: a new model and dataset designed for understanding object relations in images. Specifically, we propose the All-Seeing Model V2 (ASMv2) that integrates the formulation of text generation, object localization, and relation comprehension into a relation conversation (ReC) task. Leveraging this unified task, our model excels not only in perceiving and recognizing all objects within the image but also in grasping the intricate relation graph between them, diminishing the relation hallucination often encountered by Multi-modal Large Language Models (MLLMs). To facilitate training and evaluation of MLLMs in relation understanding, we created the first high-quality ReC dataset ({AS-V2) which is aligned with the format of standard instruction tuning data. In addition, we design a new benchmark, termed Circular-based Relation Probing Evaluation (CRPE) for comprehensively evaluating the relation comprehension capabilities of MLLMs. Notably, our ASMv2 achieves an overall accuracy of 52.04 on this relation-aware benchmark, surpassing the 43.14 of LLaVA-1.5 by a large margin. We hope that our work can inspire more future research and contribute to the evolution towards artificial general intelligence. Our project is released at https://github.com/OpenGVLab/all-seeing.

arxiv情報

著者 Weiyun Wang,Yiming Ren,Haowen Luo,Tiantong Li,Chenxiang Yan,Zhe Chen,Wenhai Wang,Qingyun Li,Lewei Lu,Xizhou Zhu,Yu Qiao,Jifeng Dai
発行日 2024-02-29 18:59:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク