HDC: Hierarchical Semantic Decoding with Counting Assistance for Generalized Referring Expression Segmentation

要約

新しく提案された Generalized Referring Expression Segmentation (GRES) は、複数の/非ターゲット シナリオを関与させることで、古典的な RES の定式化を強化します。
最近のアプローチは、セグメンテーションとオブジェクトの存在の識別に直接利用される最後のモダリティ融合機能の最適化に焦点を当てています。
ただし、GRES では、インスタンス間の空間関係が複雑になり、テキストの説明が欺瞞的になるため、全粒度の情報を 1 つの結合表現に統合する試みは現実的ではありません。
さらに、すべての参照対象シナリオにわたる後続のバイナリ ターゲットの正当化では、それらの固有の違いを特定できず、オブジェクトの理解が曖昧になります。
この弱点に対処するために、$\textbf{C}$ounting Assistance Framework (HDC) を使用した $\textbf{H}$ierarchical Semantic $\textbf{D}$ecoding を提案します。
これは、粒度を超えて相補的なモダリティ情報を階層的に転送し、その後、マルチレベル復号化のために適切に調整された各意味論的対応を集約します。
さらに、完全なセマンティック コンテキスト モデリングにより、HDC に明示的なカウント機能を提供し、複数/単一/非ターゲット設定における包括的なオブジェクトの認識を促進します。
gRefCOCO、Ref-ZOM、R-RefCOCO、RefCOCO ベンチマークの実験結果は、最先端の GRES 手法を大幅に上回る HDC の有効性と合理性を実証しています。
コードは $\href{https://github.com/RobertLuo1/HDC}{here}$ から入手できます。

要約(オリジナル)

The newly proposed Generalized Referring Expression Segmentation (GRES) amplifies the formulation of classic RES by involving multiple/non-target scenarios. Recent approaches focus on optimizing the last modality-fused feature which is directly utilized for segmentation and object-existence identification. However, the attempt to integrate all-grained information into a single joint representation is impractical in GRES due to the increased complexity of the spatial relationships among instances and deceptive text descriptions. Furthermore, the subsequent binary target justification across all referent scenarios fails to specify their inherent differences, leading to ambiguity in object understanding. To address the weakness, we propose a $\textbf{H}$ierarchical Semantic $\textbf{D}$ecoding with $\textbf{C}$ounting Assistance framework (HDC). It hierarchically transfers complementary modality information across granularities, and then aggregates each well-aligned semantic correspondence for multi-level decoding. Moreover, with complete semantic context modeling, we endow HDC with explicit counting capability to facilitate comprehensive object perception in multiple/single/non-target settings. Experimental results on gRefCOCO, Ref-ZOM, R-RefCOCO, and RefCOCO benchmarks demonstrate the effectiveness and rationality of HDC which outperforms the state-of-the-art GRES methods by a remarkable margin. Code will be available $\href{https://github.com/RobertLuo1/HDC}{here}$.

arxiv情報

著者 Zhuoyan Luo,Yinghao Wu,Yong Liu,Yicheng Xiao,Xiao-Ping Zhang,Yujiu Yang
発行日 2024-05-24 15:53:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク