要約
表現セグメンテーション(RES)を参照するなどのタスクを含むピクセルの接地は、ビジョンと言語のモダリティのギャップを埋める大きな可能性のために、かなりの注目を集めています。
ただし、このドメインの進歩は、現在、限られたオブジェクトカテゴリ、テキストの多様性が不十分、高品質の注釈が不足しているなど、既存のデータセットに固有の制限によって制約されています。
これらの制限を緩和するために、次のことを含むGroundingSuiteを紹介します。(1)複数の視覚言語モデル(VLM)エージェントを活用する自動データアノテーションフレームワーク。
(2)956万の多様な紹介式とそれらに対応するセグメンテーションを含む大規模なトレーニングデータセット。
(3)3,800枚の画像で構成される細心の注意を払ってキュレーションされた評価ベンチマーク。
GroundingSuiteトレーニングデータセットは、大幅なパフォーマンスの改善を促進し、最先端の結果を達成できるようにトレーニングされたモデルを可能にします。
具体的には、Grefcocoで68.9のCiouとRefcocomで55.3のGiou。
さらに、GroundingSuite Annotationフレームワークは、現在の主要なデータアノテーション方法、つまりGLAMMよりも$ 4.5 \ Times $ $ $ $ 4.5 \ Times $と比較して優れた効率を示しています。
要約(オリジナル)
Pixel grounding, encompassing tasks such as Referring Expression Segmentation (RES), has garnered considerable attention due to its immense potential for bridging the gap between vision and language modalities. However, advancements in this domain are currently constrained by limitations inherent in existing datasets, including limited object categories, insufficient textual diversity, and a scarcity of high-quality annotations. To mitigate these limitations, we introduce GroundingSuite, which comprises: (1) an automated data annotation framework leveraging multiple Vision-Language Model (VLM) agents; (2) a large-scale training dataset encompassing 9.56 million diverse referring expressions and their corresponding segmentations; and (3) a meticulously curated evaluation benchmark consisting of 3,800 images. The GroundingSuite training dataset facilitates substantial performance improvements, enabling models trained on it to achieve state-of-the-art results. Specifically, a cIoU of 68.9 on gRefCOCO and a gIoU of 55.3 on RefCOCOm. Moreover, the GroundingSuite annotation framework demonstrates superior efficiency compared to the current leading data annotation method, i.e., $4.5 \times$ faster than the GLaMM.
arxiv情報
著者 | Rui Hu,Lianghui Zhu,Yuxuan Zhang,Tianheng Cheng,Lei Liu,Heng Liu,Longjin Ran,Xiaoxin Chen,Wenyu Liu,Xinggang Wang |
発行日 | 2025-03-13 17:43:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google