May the Forgetting Be with You: Alternate Replay for Learning with Noisy Labels

要約

忘却は増分トレーニング中に大きな課題となるため、現代の AI システムではストリーミング データ環境で新しい知識を吸収することが特に要求されます。
この問題に対処するために、継続学習 (CL) のほとんどのアプローチは、過去のデータの制限されたバッファーの再生に依存しています。
ただし、人間による注釈が時間制限によって制約されたり、データが Web から自動的に収集されるような現実世界のシナリオでは、ノイズが存在するため、これらの戦略が脆弱になることがよくあります。
この研究では、Alternate Experience Replay (AER) を導入することで、ノイズのあるラベルの下の CL (CLN) の問題に対処します。これは、メモリ バッファー内のクリーンなサンプル、複雑なサンプル、ノイズのあるサンプルの明確な区別を維持することを忘れることを利用します。
これは、以前に学習したデータ分布にほとんど当てはまらない、複雑な例やラベルが間違っている例は忘れられる可能性が最も高いという考えです。
このような分離の利点を把握するために、AER には非対称バランス サンプリング (ABS) が装備されています。これは、過去の関連サンプルを保持しながら、現在のタスクの純度を優先する新しいサンプル選択戦略です。
広範な計算比較を通じて、得られたバッファーの精度と純度の両方の点でアプローチの有効性を実証し、その結果、既存の損失ベースの精製戦略と比較して精度が平均 4.71% ポイントという顕著な向上をもたらしました。
コードは https://github.com/aimagelab/mammoth で入手できます。

要約(オリジナル)

Forgetting presents a significant challenge during incremental training, making it particularly demanding for contemporary AI systems to assimilate new knowledge in streaming data environments. To address this issue, most approaches in Continual Learning (CL) rely on the replay of a restricted buffer of past data. However, the presence of noise in real-world scenarios, where human annotation is constrained by time limitations or where data is automatically gathered from the web, frequently renders these strategies vulnerable. In this study, we address the problem of CL under Noisy Labels (CLN) by introducing Alternate Experience Replay (AER), which takes advantage of forgetting to maintain a clear distinction between clean, complex, and noisy samples in the memory buffer. The idea is that complex or mislabeled examples, which hardly fit the previously learned data distribution, are most likely to be forgotten. To grasp the benefits of such a separation, we equip AER with Asymmetric Balanced Sampling (ABS): a new sample selection strategy that prioritizes purity on the current task while retaining relevant samples from the past. Through extensive computational comparisons, we demonstrate the effectiveness of our approach in terms of both accuracy and purity of the obtained buffer, resulting in a remarkable average gain of 4.71% points in accuracy with respect to existing loss-based purification strategies. Code is available at https://github.com/aimagelab/mammoth.

arxiv情報

著者 Monica Millunzi,Lorenzo Bonicelli,Angelo Porrello,Jacopo Credi,Petter N. Kolm,Simone Calderara
発行日 2024-08-26 14:09:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク