The Curse of Diversity in Ensemble-Based Exploration


私たちは、深層強化学習における驚くべき現象を発見しました。データ共有エージェントの多様なアンサンブルをトレーニングすること (十分に確立された探索戦略) は、標準的な単一エージェントのトレーニングと比較した場合、個々のアンサンブル メンバーのパフォーマンスを著しく損なう可能性があります。
注意深く分析した結果、パフォーマンスの低下の原因は、各アンサンブル メンバーの共有トレーニング データに含まれる自己生成データの割合が低いことと、個々のアンサンブル メンバーがそのような非常にポリシーから外れたデータから学習する非効率性にあると考えられます。
再生バッファーを大きくしたり、アンサンブル サイズを小さくしたりするなど、いくつかの直感的な解決策では、一貫してパフォーマンスの低下を軽減できなかったり、アンサンブルの利点が損なわれたりすることがわかりました。
最後に、離散制御領域と連続制御領域の両方で、クロスアンサンブル表現学習 (CERL) と呼ばれる新しい方法を使用して、多様性の呪いに対抗する表現学習の可能性を実証します。


We uncover a surprising phenomenon in deep reinforcement learning: training a diverse ensemble of data-sharing agents — a well-established exploration strategy — can significantly impair the performance of the individual ensemble members when compared to standard single-agent training. Through careful analysis, we attribute the degradation in performance to the low proportion of self-generated data in the shared training data for each ensemble member, as well as the inefficiency of the individual ensemble members to learn from such highly off-policy data. We thus name this phenomenon the curse of diversity. We find that several intuitive solutions — such as a larger replay buffer or a smaller ensemble size — either fail to consistently mitigate the performance loss or undermine the advantages of ensembling. Finally, we demonstrate the potential of representation learning to counteract the curse of diversity with a novel method named Cross-Ensemble Representation Learning (CERL) in both discrete and continuous control domains. Our work offers valuable insights into an unexpected pitfall in ensemble-based exploration and raises important caveats for future applications of similar approaches.


著者 Zhixuan Lin,Pierluca D’Oro,Evgenii Nikishin,Aaron Courville
発行日 2024-05-07 14:14:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.LG パーマリンク