Towards Unified Referring Expression Segmentation Across Omni-Level Visual Target Granularities

要約

参照式セグメンテーション(RES)は、記述言語式に一致するエンティティのマスクのセグメント化を目的としています。
従来のRESメソッドは主にオブジェクトレベルの接地に対処しますが、実際のシナリオには、マルチオブジェクト、単一オブジェクト、またはパートレベル参照など、複数のレベルのターゲット粒度を処理できる、より汎用性の高いフレームワークが必要です。
これは、ユーザーがターゲットを説明する多様で微妙な方法により、大きな課題をもたらします。
ただし、既存のデータセットとモデルは、主にオブジェクトレベルのターゲットローカリゼーションの接地スペシャリストの設計に焦点を当てており、必要なデータリソースと、より実用的なマルチグレインRESの統一フレームワークがありません。
このホワイトペーパーでは、視覚的な粒度統一RESタスクに向けてさらに一歩進んでいます。
データの希少性の制限を克服するために、より細かい視覚的理解を進めるための部分レベルの注釈を含むRefCocomベンチマークとともに、新しいマルチ粒度を参照する表現セグメンテーション(MRE)タスクを導入します。
さらに、最大の視覚接地データセットであるMRES-32Mを作成します。これは、パートレベルのビジョン言語接地用に特別に設計された1M画像にわたって32.2mを超えるマスクとキャプションを含むものです。
マルチ粒度RESの課題に取り組むために、オブジェクトレベルとパートレベルのRESタスクを統合する統合されたマルチモーダル大型言語モデルであるUnire ++を提案します。
UNIRES ++には、きめ細かい視覚的特徴探査のターゲット設計が組み込まれています。
共同モデルのアーキテクチャとパラメーターを使用すると、UNIRES ++は、MRESのRefcocom、Generized Res用のGrefcoco、Refcoco、Refcoco+、Classic ResのRefcocogなど、複数のベンチマークで最先端のパフォーマンスを実現します。
マルチグレインの視覚的接地に関する将来の研究を促進するために、RefCocomベンチマーク、MRES-32Mデータセット、モデルUnires ++は、https://github.com/rubics-xuan/mresで公開されます。

要約(オリジナル)

Referring expression segmentation (RES) aims at segmenting the entities’ masks that match the descriptive language expression. While traditional RES methods primarily address object-level grounding, real-world scenarios demand a more versatile framework that can handle multiple levels of target granularity, such as multi-object, single object or part-level references. This introduces great challenges due to the diverse and nuanced ways users describe targets. However, existing datasets and models mainly focus on designing grounding specialists for object-level target localization, lacking the necessary data resources and unified frameworks for the more practical multi-grained RES. In this paper, we take a step further towards visual granularity unified RES task. To overcome the limitation of data scarcity, we introduce a new multi-granularity referring expression segmentation (MRES) task, alongside the RefCOCOm benchmark, which includes part-level annotations for advancing finer-grained visual understanding. In addition, we create MRES-32M, the largest visual grounding dataset, comprising over 32.2M masks and captions across 1M images, specifically designed for part-level vision-language grounding. To tackle the challenges of multi-granularity RES, we propose UniRES++, a unified multimodal large language model that integrates object-level and part-level RES tasks. UniRES++ incorporates targeted designs for fine-grained visual feature exploration. With the joint model architecture and parameters, UniRES++ achieves state-of-the-art performance across multiple benchmarks, including RefCOCOm for MRES, gRefCOCO for generalized RES, and RefCOCO, RefCOCO+, RefCOCOg for classic RES. To foster future research into multi-grained visual grounding, our RefCOCOm benchmark, MRES-32M dataset and model UniRES++ will be publicly available at https://github.com/Rubics-Xuan/MRES.

arxiv情報

著者 Jing Liu,Wenxuan Wang,Yisi Zhang,Yepeng Tang,Xingjian He,Longteng Guo,Tongtian Yue,Xinlong Wang
発行日 2025-04-02 17:58:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク