要約
PNG(Panoptic Narrative Grounding)は、静止画像の高密度な物語キャプションによって記述された物や物のカテゴリの視覚的オブジェクトをセグメント化することを目的とした新しいタスクである。従来の2段階アプローチは、まず既製の汎光学的セグメンテーションモデルによってセグメンテーション領域の提案を抽出し、次に粗い領域-フレーズマッチングを行い、各名詞句の候補領域を接地させるものである。しかし、2段階のパイプラインは通常、第1段階での低品質の提案と、領域特徴プーリングによる空間的詳細の損失という性能上の制限に悩まされ、また、物と物のカテゴリに対して別々に設計された複雑な戦略もある。これらの欠点を軽減するために、我々は1段階のエンドツーエンドPixel-Phrase Matching Network(PPMN)を提案する。これは、領域提案の代わりに、各フレーズを対応するピクセルに直接マッチングし、単純な組み合わせにより全球のセグメンテーションを出力する。このように、我々のモデルは、疎な領域-フレーズペアではなく、密にアノテーションされた画素-フレーズペアの監視から、十分かつ微細なクロスモーダル意味対応を利用することが可能である。さらに、LCPA(Language-Compatible Pixel Aggregation)モジュールを提案し、各フレーズに最も適合する画素を選択し、対応する視覚コンテキストを適応的に集約する多段階洗練によってフレーズ特徴の識別能力をさらに向上させる。本手法は、PNGベンチマークにおいて、平均回収率4.0という最先端の性能を達成することが、広範な実験により示された。
要約(オリジナル)
Panoptic Narrative Grounding (PNG) is an emerging task whose goal is to segment visual objects of things and stuff categories described by dense narrative captions of a still image. The previous two-stage approach first extracts segmentation region proposals by an off-the-shelf panoptic segmentation model, then conducts coarse region-phrase matching to ground the candidate regions for each noun phrase. However, the two-stage pipeline usually suffers from the performance limitation of low-quality proposals in the first stage and the loss of spatial details caused by region feature pooling, as well as complicated strategies designed for things and stuff categories separately. To alleviate these drawbacks, we propose a one-stage end-to-end Pixel-Phrase Matching Network (PPMN), which directly matches each phrase to its corresponding pixels instead of region proposals and outputs panoptic segmentation by simple combination. Thus, our model can exploit sufficient and finer cross-modal semantic correspondence from the supervision of densely annotated pixel-phrase pairs rather than sparse region-phrase pairs. In addition, we also propose a Language-Compatible Pixel Aggregation (LCPA) module to further enhance the discriminative ability of phrase features through multi-round refinement, which selects the most compatible pixels for each phrase to adaptively aggregate the corresponding visual context. Extensive experiments show that our method achieves new state-of-the-art performance on the PNG benchmark with 4.0 absolute Average Recall gains.
arxiv情報
著者 | Zihan Ding,Zi-han Ding,Tianrui Hui,Junshi Huang,Xiaoming Wei,Xiaolin Wei,Si Liu |
発行日 | 2022-08-11 05:42:12+00:00 |
arxivサイト | arxiv_id(pdf) |