Box for Mask and Mask for Box: weak losses for multi-task partially supervised learning

要約

オブジェクト検出とセマンティック セグメンテーションはどちらもシーンを理解するタスクですが、データ構造と情報レベルが異なります。
オブジェクト検出にはオブジェクト インスタンスのボックス座標が必要ですが、セマンティック セグメンテーションにはピクセル単位のクラス ラベルが必要です。
一方のタスクの情報を利用して他方のタスクをトレーニングすることは、各トレーニング サンプルが 1 つのタスクに対してのみ注釈付けされているマルチタスクの部分教師あり学習にとって有益であり、異なるタスクのデータセットでトレーニング セットを拡張できる可能性があります。
この論文では、部分的に注釈が付けられたデータに対するさまざまな弱い損失を、既存の教師付き損失と組み合わせて研究します。
あるタスクのアノテーションから必要な情報を抽出して、もう一方のタスクをトレーニングするために、Box-for-Mask 戦略と Mask-for-Box 戦略、およびその組み合わせ BoMBo を提案します。
VOC および COCO データセットに関するアブレーション研究と実験結果は、提案されたアイデアにとって好ましい結果を示しています。
ソース コードとデータ分割は https://github.com/lhoangan/multas でご覧いただけます。

要約(オリジナル)

Object detection and semantic segmentation are both scene understanding tasks yet they differ in data structure and information level. Object detection requires box coordinates for object instances while semantic segmentation requires pixel-wise class labels. Making use of one task’s information to train the other would be beneficial for multi-task partially supervised learning where each training example is annotated only for a single task, having the potential to expand training sets with different-task datasets. This paper studies various weak losses for partially annotated data in combination with existing supervised losses. We propose Box-for-Mask and Mask-for-Box strategies, and their combination BoMBo, to distil necessary information from one task annotations to train the other. Ablation studies and experimental results on VOC and COCO datasets show favorable results for the proposed idea. Source code and data splits can be found at https://github.com/lhoangan/multas.

arxiv情報

著者 Hoàng-Ân Lê,Paul Berg,Minh-Tan Pham
発行日 2024-11-26 15:51:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク