Better (pseudo-)labels for semi-supervised instance segmentation

要約

画像分類や画像とテキストの位置合わせなどのタスクには大規模なデータセットが利用可能であるにもかかわらず、検出やセグメンテーションなどのより複雑な認識タスク用のラベル付きデータはそれほど豊富ではありません。
特に、たとえばセグメンテーション アノテーションの作成には時間がかかり、インスタンスの分布はクラス間で大きく偏ることがよくあります。
半教師付き教師と生徒の蒸留手法は、ラベルなしの膨大な量のデータを活用する点で有望ですが、調整ミスに悩まされ、頻繁に代表されるクラスでは過信が生じ、まれなクラスでは過信が生じます。
さらに、これらの方法では、限られた例のセットから効率的に学習することが困難になります。
教師モデルのトレーニング プロセスを強化する二重戦略を導入し、数回の学習でのパフォーマンスを大幅に向上させます。
第二に、学生モデルが教師の校正エラーを修正できるようにする校正修正メカニズムを提案します。
私たちのアプローチを使用すると、LVIS データセットでの最先端の教師付きベースライン パフォーマンスと比較して、平均精度 (AP) が 2.8% 増加し、レア クラスの AP が 10.3% 増加するという顕著な改善が観察されました。

要約(オリジナル)

Despite the availability of large datasets for tasks like image classification and image-text alignment, labeled data for more complex recognition tasks, such as detection and segmentation, is less abundant. In particular, for instance segmentation annotations are time-consuming to produce, and the distribution of instances is often highly skewed across classes. While semi-supervised teacher-student distillation methods show promise in leveraging vast amounts of unlabeled data, they suffer from miscalibration, resulting in overconfidence in frequently represented classes and underconfidence in rarer ones. Additionally, these methods encounter difficulties in efficiently learning from a limited set of examples. We introduce a dual-strategy to enhance the teacher model’s training process, substantially improving the performance on few-shot learning. Secondly, we propose a calibration correction mechanism that that enables the student model to correct the teacher’s calibration errors. Using our approach, we observed marked improvements over a state-of-the-art supervised baseline performance on the LVIS dataset, with an increase of 2.8% in average precision (AP) and 10.3% gain in AP for rare classes.

arxiv情報

著者 François Porcher,Camille Couprie,Marc Szafraniec,Jakob Verbeek
発行日 2024-03-18 11:23:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク