要約
ディープ補強学習(DRL)は、エージェントがニューラルネットワークを使用して、特定の環境でどのアクションをとるかを学習する人工知能のパラダイムです。
DRLは最近、運転シミュレータ、3Dロボット制御、マルチプレイヤーオンラインバトルアリーナビデオゲームなどの複雑な環境を解決できることから牽引力を獲得しました。
深いQネットワーク(DQN)や近位政策最適化(PPO)アルゴリズムなど、これらのエージェントのトレーニングを担当する最先端のアルゴリズムの多数の実装が現在存在しています。
ただし、研究では、同じアルゴリズムの実装が一貫性があり、したがって互換性があると仮定する間違いを犯します。
この論文では、微分テストレンズを通じて、実装の矛盾の程度、実装のパフォーマンスへの影響、および交換可能な実装の仮定に基づく以前の研究の結論への影響を研究した結果を提示します。
微分テストの結果は、テストされたアルゴリズムの実装間で有意な矛盾を示し、それらが交換できないことを示しています。
特に、56ゲームでテストされた5つのPPO実装のうち、3つの実装は合計試験の50%で超人的なパフォーマンスを達成しましたが、他の2つの実装では、総トライアルの15%未満で超人的なパフォーマンスを達成しました。
実装のソースコードの細心の手動分析の一環として、実装の不一致を分析し、コードレベルの矛盾が主にこれらの矛盾を引き起こしたと判断しました。
最後に、私たちは研究を再現し、実装の交換性のこの仮定が実験の結果をひっくり返すのに十分であることを示しました。
したがって、これには、実装がどのように使用されているかが変化する必要があります。
要約(オリジナル)
Deep Reinforcement Learning (DRL) is a paradigm of artificial intelligence where an agent uses a neural network to learn which actions to take in a given environment. DRL has recently gained traction from being able to solve complex environments like driving simulators, 3D robotic control, and multiplayer-online-battle-arena video games. Numerous implementations of the state-of-the-art algorithms responsible for training these agents, like the Deep Q-Network (DQN) and Proximal Policy Optimization (PPO) algorithms, currently exist. However, studies make the mistake of assuming implementations of the same algorithm to be consistent and thus, interchangeable. In this paper, through a differential testing lens, we present the results of studying the extent of implementation inconsistencies, their effect on the implementations’ performance, as well as their impact on the conclusions of prior studies under the assumption of interchangeable implementations. The outcomes of our differential tests showed significant discrepancies between the tested algorithm implementations, indicating that they are not interchangeable. In particular, out of the five PPO implementations tested on 56 games, three implementations achieved superhuman performance for 50% of their total trials while the other two implementations only achieved superhuman performance for less than 15% of their total trials. As part of a meticulous manual analysis of the implementations’ source code, we analyzed implementation discrepancies and determined that code-level inconsistencies primarily caused these discrepancies. Lastly, we replicated a study and showed that this assumption of implementation interchangeability was sufficient to flip experiment outcomes. Therefore, this calls for a shift in how implementations are being used.
arxiv情報
著者 | Rajdeep Singh Hundal,Yan Xiao,Xiaochun Cao,Jin Song Dong,Manuel Rigger |
発行日 | 2025-03-28 16:25:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google