SemiReward: A General Reward Model for Semi-supervised Learning

要約

半教師あり学習 (SSL) は、擬似ラベル付けによる自己トレーニング フレームワークのさまざまな改善により、大きな進歩を遂げてきました。
主な課題は、確証バイアスに対して高品質の疑似ラベルをどのように区別するかです。
ただし、既存の擬似ラベル選択戦略は、事前定義されたスキームまたは分類用に特別に設計された複雑な手作りのポリシーに限定されており、高品質のラベル、高速な収束、およびタスクの汎用性を同時に実現することができません。
これらの目的を達成するために、私たちは、報酬スコアを予測して高品質の疑似ラベルを評価およびフィルタリングする半教師あり報酬フレームワーク (SemiReward) を提案します。これは、幅広いタスク タイプとシナリオで主流の SSL メソッドにプラグイン可能です。
確証バイアスを軽減するために、SemiReward はジェネレーター モデルとサブサンプリング戦略を使用した 2 段階でオンラインでトレーニングされます。
3 つのモダリティの 13 の標準 SSL ベンチマークに関する分類および回帰タスクを使用した広範な実験により、SemiReward が Pseudo Label、FlexMatch、および Free/SoftMatch で大幅なパフォーマンス向上とより高速な収束速度を達成することが検証されています。

要約(オリジナル)

Semi-supervised learning (SSL) has witnessed great progress with various improvements in the self-training framework with pseudo labeling. The main challenge is how to distinguish high-quality pseudo labels against the confirmation bias. However, existing pseudo-label selection strategies are limited to pre-defined schemes or complex hand-crafted policies specially designed for classification, failing to achieve high-quality labels, fast convergence, and task versatility simultaneously. To these ends, we propose a Semi-supervised Reward framework (SemiReward) that predicts reward scores to evaluate and filter out high-quality pseudo labels, which is pluggable to mainstream SSL methods in wide task types and scenarios. To mitigate confirmation bias, SemiReward is trained online in two stages with a generator model and subsampling strategy. With classification and regression tasks on 13 standard SSL benchmarks of three modalities, extensive experiments verify that SemiReward achieves significant performance gains and faster convergence speeds upon Pseudo Label, FlexMatch, and Free/SoftMatch.

arxiv情報

著者 Siyuan Li,Weiyang Jin,Zedong Wang,Fang Wu,Zicheng Liu,Cheng Tan,Stan Z. Li
発行日 2023-10-04 17:56:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク