要約
かなりの進歩にもかかわらず、パノプティック ナラティブ グラウンディング (PNG) の進歩は依然としてコストのかかるアノテーションによって妨げられています。
この論文では、競争力のあるパフォーマンスを達成するために、少数のラベル付き画像とテキストのペアのセットと、より大きなラベルのないペアのセットを利用する、新しい半教師ありパノプティック ナラティブ グラウンディング (SS-PNG) 学習スキームを紹介します。
視覚的なセグメンテーション タスクとは異なり、PNG には複数の無制限の名詞に属する 1 つのピクセルが含まれます。
その結果、既存のマルチクラスベースの半教師ありセグメンテーション フレームワークをこのタスクに直接適用することはできません。
この課題に対処するために、私たちはまず、SS-PNG 設定に合わせた新しい SS-PNG ネットワーク (SS-PNG-NW) を開発します。
バーンインやデータ拡張などの戦略を徹底的に調査し、SS-PNG-NW に最適な汎用構成を決定します。
さらに、不均衡な擬似ラベル品質の問題に取り組むために、半教師あり目標を調整する品質ベースの損失調整 (QLA) アプローチを提案し、その結果 SS-PNG-NW+ が強化されます。
提案した QLA を使用して、ピクセル レベルとマスク レベルでそれぞれ BCE 損失と Dice 損失を改善します。
当社では PNG データセットに対して広範な実験を行っており、SS-PNG-NW+ はすべてのデータ比率にわたって完全教師モデルに匹敵する有望な結果を示しています。
注目すべきことに、当社の SS-PNG-NW+ は、わずか 30% と 50% の監視データを持つ完全監視モデルよりも優れたパフォーマンスを示し、それぞれ 0.8% と 1.1% 上回っています。
これは、限られたアノテーションによってもたらされる課題を克服し、PNG タスクの適用性を高める上で、私たちが提案する SS-PNG-NW+ の有効性を強調しています。
ソース コードは https://github.com/nini0919/SSPNG で入手できます。
要約(オリジナル)
Despite considerable progress, the advancement of Panoptic Narrative Grounding (PNG) remains hindered by costly annotations. In this paper, we introduce a novel Semi-Supervised Panoptic Narrative Grounding (SS-PNG) learning scheme, capitalizing on a smaller set of labeled image-text pairs and a larger set of unlabeled pairs to achieve competitive performance. Unlike visual segmentation tasks, PNG involves one pixel belonging to multiple open-ended nouns. As a result, existing multi-class based semi-supervised segmentation frameworks cannot be directly applied to this task. To address this challenge, we first develop a novel SS-PNG Network (SS-PNG-NW) tailored to the SS-PNG setting. We thoroughly investigate strategies such as Burn-In and data augmentation to determine the optimal generic configuration for the SS-PNG-NW. Additionally, to tackle the issue of imbalanced pseudo-label quality, we propose a Quality-Based Loss Adjustment (QLA) approach to adjust the semi-supervised objective, resulting in an enhanced SS-PNG-NW+. Employing our proposed QLA, we improve BCE Loss and Dice loss at pixel and mask levels, respectively. We conduct extensive experiments on PNG datasets, with our SS-PNG-NW+ demonstrating promising results comparable to fully-supervised models across all data ratios. Remarkably, our SS-PNG-NW+ outperforms fully-supervised models with only 30% and 50% supervision data, exceeding their performance by 0.8% and 1.1% respectively. This highlights the effectiveness of our proposed SS-PNG-NW+ in overcoming the challenges posed by limited annotations and enhancing the applicability of PNG tasks. The source code is available at https://github.com/nini0919/SSPNG.
arxiv情報
著者 | Danni Yang,Jiayi Ji,Xiaoshuai Sun,Haowei Wang,Yinan Li,Yiwei Ma,Rongrong Ji |
発行日 | 2023-10-27 13:47:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google