要約
実際のシナリオでは、データのラベルが間違っていたり、重複していたり、偏っていたりすると、トレーニングが長引いたり、モデルの収束が妨げられたりする可能性があります。
簡単なサンプルまたは硬いサンプルを優先する従来のソリューションには、そのようなさまざまなサンプルを同時に処理する柔軟性がありません。
最近の研究では、モデルの汎化損失に対するデータの影響を調査することにより、より合理的なデータ選択原則が提案されています。
ただし、その実際の採用は、あまり原則に基づいていない近似と追加のホールドアウト データに依存しています。
この研究では、軽量のベイジアン処理を活用し、大規模な事前トレーニング済みモデルに基づいて構築された既製のゼロショット予測子を組み込むことで、これらの問題を解決します。
結果として得られるアルゴリズムは効率的で、実装が簡単です。
私たちは、オンライン バッチ選択シナリオにおいて、かなりのデータ ノイズと不均衡を伴う困難なベンチマークについて広範な実証研究を実行し、競合ベースラインを上回る優れたトレーニング効率を観察しました。
特に、難しい WebVision ベンチマークにおいて、私たちの方法は、主要なデータ選択方法よりも大幅に少ないトレーニング反復で同様の予測パフォーマンスを達成できます。
要約(オリジナル)
Mislabeled, duplicated, or biased data in real-world scenarios can lead to prolonged training and even hinder model convergence. Traditional solutions prioritizing easy or hard samples lack the flexibility to handle such a variety simultaneously. Recent work has proposed a more reasonable data selection principle by examining the data’s impact on the model’s generalization loss. However, its practical adoption relies on less principled approximations and additional holdout data. This work solves these problems by leveraging a lightweight Bayesian treatment and incorporating off-the-shelf zero-shot predictors built on large-scale pre-trained models. The resulting algorithm is efficient and easy to implement. We perform extensive empirical studies on challenging benchmarks with considerable data noise and imbalance in the online batch selection scenario, and observe superior training efficiency over competitive baselines. Notably, on the challenging WebVision benchmark, our method can achieve similar predictive performance with significantly fewer training iterations than leading data selection methods.
arxiv情報
著者 | Zhijie Deng,Peng Cui,Jun Zhu |
発行日 | 2023-11-07 15:25:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google