要約
弱教師あり学習は、リソースが少ない設定で機械学習モデルをトレーニングするための一般的なアプローチです。
高品質ではあるがコストのかかる人間によるアノテーションを要求する代わりに、さまざまな弱いソースから取得したノイズの多いアノテーションを使用してモデルをトレーニングすることができます。
最近、ラベル ノイズ下での堅牢なトレーニングのために多くの洗練されたアプローチが提案され、印象的な結果が報告されています。
このホワイトペーパーでは、これらのアプローチの設定を再検討し、これらのアプローチによってもたらされる利点が大幅に過大評価されていることがわかります。
具体的には、既存の弱教師あり学習アプローチの成功は、クリーンな検証サンプルの入手可能性に大きく依存していることがわかりました。このサンプルをトレーニングするだけで、サンプルをより効率的に活用できることがわかります。
トレーニングでこれらのクリーンなラベルを使用した後は、これらの洗練されたアプローチを使用する利点はほとんど消えてしまいます。
これは、利用可能なクリーン データのサイズをクラスごとにわずか 5 つのサンプルに削減した場合でも当てはまり、これらのアプローチは非現実的になります。
弱教師あり学習の真の価値を理解するために、私たちはさまざまな NLP データセットとタスクを徹底的に分析し、弱教師ありアプローチがいつ、そしてなぜ機能するのかを確認します。
調査結果に基づいて、今後の研究への推奨事項を提供します。
要約(オリジナル)
Weakly supervised learning is a popular approach for training machine learning models in low-resource settings. Instead of requesting high-quality yet costly human annotations, it allows training models with noisy annotations obtained from various weak sources. Recently, many sophisticated approaches have been proposed for robust training under label noise, reporting impressive results. In this paper, we revisit the setup of these approaches and find that the benefits brought by these approaches are significantly overestimated. Specifically, we find that the success of existing weakly supervised learning approaches heavily relies on the availability of clean validation samples which, as we show, can be leveraged much more efficiently by simply training on them. After using these clean labels in training, the advantages of using these sophisticated approaches are mostly wiped out. This remains true even when reducing the size of the available clean data to just five samples per class, making these approaches impractical. To understand the true value of weakly supervised learning, we thoroughly analyze diverse NLP datasets and tasks to ascertain when and why weakly supervised approaches work. Based on our findings, we provide recommendations for future research.
arxiv情報
著者 | Dawei Zhu,Xiaoyu Shen,Marius Mosbach,Andreas Stephan,Dietrich Klakow |
発行日 | 2023-07-07 13:56:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google