The Curse of Diversity in Ensemble-Based Exploration

要約

私たちは、深層強化学習における驚くべき現象を発見しました。データ共有エージェントの多様なアンサンブルをトレーニングすること (十分に確立された探索戦略) は、標準的な単一エージェントのトレーニングと比較した場合、個々のアンサンブル メンバーのパフォーマンスを著しく損なう可能性があります。
注意深く分析した結果、パフォーマンスの低下の原因は、各アンサンブル メンバーの共有トレーニング データに含まれる自己生成データの割合が低いことと、個々のアンサンブル メンバーがそのような非常にポリシーから外れたデータから学習する非効率性にあると考えられます。
したがって、私たちはこの現象を多様性の呪いと名付けます。
再生バッファーを大きくしたり、アンサンブル サイズを小さくしたりするなど、いくつかの直感的な解決策では、一貫してパフォーマンスの低下を軽減できなかったり、アンサンブルの利点が損なわれたりすることがわかりました。
最後に、離散制御領域と連続制御領域の両方で、クロスアンサンブル表現学習 (CERL) と呼ばれる新しい方法を使用して、多様性の呪いに対抗する表現学習の可能性を実証します。
私たちの研究は、アンサンブルベースの探索における予期せぬ落とし穴についての貴重な洞察を提供し、同様のアプローチの将来の適用に対する重要な警告を提起します。

要約(オリジナル)

We uncover a surprising phenomenon in deep reinforcement learning: training a diverse ensemble of data-sharing agents — a well-established exploration strategy — can significantly impair the performance of the individual ensemble members when compared to standard single-agent training. Through careful analysis, we attribute the degradation in performance to the low proportion of self-generated data in the shared training data for each ensemble member, as well as the inefficiency of the individual ensemble members to learn from such highly off-policy data. We thus name this phenomenon the curse of diversity. We find that several intuitive solutions — such as a larger replay buffer or a smaller ensemble size — either fail to consistently mitigate the performance loss or undermine the advantages of ensembling. Finally, we demonstrate the potential of representation learning to counteract the curse of diversity with a novel method named Cross-Ensemble Representation Learning (CERL) in both discrete and continuous control domains. Our work offers valuable insights into an unexpected pitfall in ensemble-based exploration and raises important caveats for future applications of similar approaches.

arxiv情報

著者 Zhixuan Lin,Pierluca D’Oro,Evgenii Nikishin,Aaron Courville
発行日 2024-05-07 14:14:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク