要約
新しく提案された Generalized Referring Expression Segmentation (GRES) は、複雑な複数のシナリオや非ターゲット シナリオを関与させることで、古典的な RES の定式化を強化します。
最近のアプローチでは、よく採用されている RES フレームワークをオブジェクトの存在の識別によって直接拡張することで、GRES に対処しています。
ただし、これらのアプローチは、複数の粒度のオブジェクト情報を単一の表現にエンコードする傾向があるため、異なる粒度の包括的なオブジェクトを正確に表現することが困難になります。
さらに、すべての参照対象シナリオにわたる単純な 2 値のオブジェクトの存在の識別では、それらの固有の違いを特定できず、オブジェクトの理解に曖昧さが生じます。
上記の問題に取り組むために、私たちは GRES 用の \textbf{Co}unting-Aware \textbf{H}ierarchical \textbf{D} エコーディング フレームワーク (CoHD) を提案します。
CoHD は、視覚言語階層を使用して複雑な参照セマンティクスをさまざまな粒度に分離し、それを内部選択および内部選択で動的に集約することにより、階層的な性質の相互利益によって多粒度の理解を高めます。
さらに、複数/単一/非ターゲットのシナリオをカウントおよびカテゴリレベルの監視に具体化することでカウント機能を組み込み、包括的なオブジェクトの認識を促進します。
gRefCOCO、Ref-ZOM、R-RefCOCO、RefCOCO ベンチマークの実験結果は、最先端の GRES 手法を大幅に上回る CoHD の有効性と合理性を実証しています。
コードは \href{https://github.com/RobertLuo1/CoHD}{こちら} で入手できます。
要約(オリジナル)
The newly proposed Generalized Referring Expression Segmentation (GRES) amplifies the formulation of classic RES by involving complex multiple/non-target scenarios. Recent approaches address GRES by directly extending the well-adopted RES frameworks with object-existence identification. However, these approaches tend to encode multi-granularity object information into a single representation, which makes it difficult to precisely represent comprehensive objects of different granularity. Moreover, the simple binary object-existence identification across all referent scenarios fails to specify their inherent differences, incurring ambiguity in object understanding. To tackle the above issues, we propose a \textbf{Co}unting-Aware \textbf{H}ierarchical \textbf{D}ecoding framework (CoHD) for GRES. By decoupling the intricate referring semantics into different granularity with a visual-linguistic hierarchy, and dynamic aggregating it with intra- and inter-selection, CoHD boosts multi-granularity comprehension with the reciprocal benefit of the hierarchical nature. Furthermore, we incorporate the counting ability by embodying multiple/single/non-target scenarios into count- and category-level supervision, facilitating comprehensive object perception. Experimental results on gRefCOCO, Ref-ZOM, R-RefCOCO, and RefCOCO benchmarks demonstrate the effectiveness and rationality of CoHD which outperforms state-of-the-art GRES methods by a remarkable margin. Code is available at \href{https://github.com/RobertLuo1/CoHD}{here}.
arxiv情報
著者 | Zhuoyan Luo,Yinghao Wu,Tianheng Cheng,Yong Liu,Yicheng Xiao,Hongfa Wang,Xiao-Ping Zhang,Yujiu Yang |
発行日 | 2024-11-25 17:14:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google