Fix-A-Step: Effective Semi-supervised Learning from Uncurated Unlabeled Sets

要約

半教師あり学習 (SSL) は、多くのラベルのない画像でもトレーニングすることにより、小さなラベル付きデータセットで分類子をトレーニングする場合と比較して、精度の向上を約束します。
医用画像処理のような現実的なアプリケーションでは、便宜上、ラベルのないセットが収集されるため、キュレーションされません。表示されるクラスまたはクラス頻度のラベル付きセットとは異なる可能性があります。
残念ながら、最新のディープ SSL では、キュレーションされていないラベルのないセットが与えられると、精度が低下することがよくあります。
最近の改善策では、分布外のラベルのない例を検出し、それらを破棄または重み付けを減らすフィルタリング アプローチが提案されています。
代わりに、ラベルのないすべての例が役立つ可能性があると考えています。
キュレーションが不足しているにもかかわらず、一般的なディープ SSL メソッドのホールドアウト精度を向上させることができる Fix-A-Step と呼ばれる手順を紹介します。
重要なイノベーションは、ラベル付けされていないすべてのデータに触発されたラベル付けされたセットの拡張と、マルチタスク SSL の損失を追跡してラベル付けされたセットの精度が損なわれるのを防ぐための勾配降下更新の変更です。
私たちの方法は他の方法よりも単純ですが、ラベルのないセットの人工汚染のテストされたすべてのレベルで、CIFAR-10 および CIFAR-100 ベンチマークで一貫した精度の向上を示しています。
さらに、SSL の実際の医療ベンチマークを提案します。それは、心臓の超音波画像のビュー タイプを認識することです。
私たちの方法は、353,500 の真にキュレーションされていないラベルのない画像から学習して、病院全体で一般化される利益をもたらすことができます。

要約(オリジナル)

Semi-supervised learning (SSL) promises gains in accuracy compared to training classifiers on small labeled datasets by also training on many unlabeled images. In realistic applications like medical imaging, unlabeled sets will be collected for expediency and thus uncurated: possibly different from the labeled set in represented classes or class frequencies. Unfortunately, modern deep SSL often makes accuracy worse when given uncurated unlabeled sets. Recent remedies suggest filtering approaches that detect out-of-distribution unlabeled examples and then discard or downweight them. Instead, we view all unlabeled examples as potentially helpful. We introduce a procedure called Fix-A-Step that can improve heldout accuracy of common deep SSL methods despite lack of curation. The key innovations are augmentations of the labeled set inspired by all unlabeled data and a modification of gradient descent updates to prevent following the multi-task SSL loss from hurting labeled-set accuracy. Though our method is simpler than alternatives, we show consistent accuracy gains on CIFAR-10 and CIFAR-100 benchmarks across all tested levels of artificial contamination for the unlabeled sets. We further suggest a real medical benchmark for SSL: recognizing the view type of ultrasound images of the heart. Our method can learn from 353,500 truly uncurated unlabeled images to deliver gains that generalize across hospitals.

arxiv情報

著者 Zhe Huang,Mary-Joy Sidhom,Benjamin S. Wessler,Michael C. Hughes
発行日 2022-08-25 04:52:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク