Improvements of Dark Experience Replay and Reservoir Sampling towards Better Balance between Consolidation and Plasticity

要約

継続的な学習は、自律エージェントにとって最も重要な能力の1つであり、日常生活のスキルを徐々に学ぶことができます。
この究極の目標のために、シンプルだが強力な方法であるダークエクスペリエンスリプレイ(DER)が最近提案されています。
Derは、貯水池サンプリング(RS)バッファーにストリーミングデータを確率的に保存し、それらを再学習したり、過去の出力を保持したりすることにより、過去に獲得したスキルが意図せずに忘れられている壊滅的な忘却を軽減します。
ただし、Derは複数の目的を考慮しているため、適切な重み付けなしでは適切に機能しません。
さらに、過去の出力を保持する能力は、分布シフトまたはその他の効果により、過去の出力が間違っている場合の学習を阻害します。
これは、記憶の統合と可塑性の間のトレードオフによるものです。
トレードオフはRSバッファーにさえ隠されており、データが継続的に渡されると、新しいスキルの新しいデータの保存を徐々に停止します。
トレードオフを緩和し、より良いバランスをとるために、このペーパーでは、DERとRSのそれぞれに改善戦略を提案しています。
具体的には、DERは、重みの自動適応、誤ったデータのリプレイブロック、および過去の出力の修正により改善されます。
また、RSは、受け入れ確率の一般化、複数のバッファーの層別化、および不要なデータの意図的な省略により改善されます。
これらの改善は、回帰、分類、補強学習の問題を含む複数のベンチマークを通じて検証されます。
その結果、提案された方法は、メモリの統合と可塑性のバランスをとることにより、学習パフォーマンスの着実な改善を達成します。

要約(オリジナル)

Continual learning is the one of the most essential abilities for autonomous agents, which can incrementally learn daily-life skills. For this ultimate goal, a simple but powerful method, dark experience replay (DER), has been proposed recently. DER mitigates catastrophic forgetting, in which the skills acquired in the past are unintentionally forgotten, by stochastically storing the streaming data in a reservoir sampling (RS) buffer and by relearning them or retaining the past outputs for them. However, since DER considers multiple objectives, it will not function properly without appropriate weighting of them. In addition, the ability to retain past outputs inhibits learning if the past outputs are incorrect due to distribution shift or other effects. This is due to a tradeoff between memory consolidation and plasticity. The tradeoff is hidden even in the RS buffer, which gradually stops storing new data for new skills in it as data is continuously passed to it. To alleviate the tradeoff and achieve better balance, this paper proposes improvement strategies to each of DER and RS. Specifically, DER is improved with automatic adaptation of weights, block of replaying erroneous data, and correction of past outputs. RS is also improved with generalization of acceptance probability, stratification of plural buffers, and intentional omission of unnecessary data. These improvements are verified through multiple benchmarks including regression, classification, and reinforcement learning problems. As a result, the proposed methods achieve steady improvements in learning performance by balancing the memory consolidation and plasticity.

arxiv情報

著者 Taisuke Kobayashi
発行日 2025-04-29 16:50:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク