The Courage to Stop: Overcoming Sunk Cost Fallacy in Deep Reinforcement Learning

要約

オフポリシーディープ補強学習(RL)は通常、学習中に過去の経験を再利用するためにリプレイバッファーを活用します。
これは、収集されたデータが有益であり、学習目標と整合する場合、サンプルの効率を改善するのに役立ちます。
そうでない場合、それは、無駄なサンプリングによる環境相互作用を無駄にすることに加えて、最適化の課題を悪化させる可能性のあるデータでリプレイバッファーを「汚染」する効果をもたらす可能性があります。
私たちは、これらの無知で無駄な移行をサンプリングすることは、深いRLの文脈では、終了までエピソードを継続する傾向である沈んだコストの誤りに対処することで回避できると主張します。
これに対処するために、Q値と勾配統計に基づいて戦略的な早期エピソード終了を可能にする軽量メカニズムである(少なくとも)学習を提案します。
私たちの方法は、MujocoとDeepmind Control Suite Benchmarksの両方で評価されたさまざまなRLアルゴリズムの学習効率を改善することを実証します。

要約(オリジナル)

Off-policy deep reinforcement learning (RL) typically leverages replay buffers for reusing past experiences during learning. This can help improve sample efficiency when the collected data is informative and aligned with the learning objectives; when that is not the case, it can have the effect of ‘polluting’ the replay buffer with data which can exacerbate optimization challenges in addition to wasting environment interactions due to wasteful sampling. We argue that sampling these uninformative and wasteful transitions can be avoided by addressing the sunk cost fallacy, which, in the context of deep RL, is the tendency towards continuing an episode until termination. To address this, we propose learn to stop (LEAST), a lightweight mechanism that enables strategic early episode termination based on Q-value and gradient statistics, which helps agents recognize when to terminate unproductive episodes early. We demonstrate that our method improves learning efficiency on a variety of RL algorithms, evaluated on both the MuJoCo and DeepMind Control Suite benchmarks.

arxiv情報

著者 Jiashun Liu,Johan Obando-Ceron,Pablo Samuel Castro,Aaron Courville,Ling Pan
発行日 2025-06-16 16:30:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク