Can Agents Run Relay Race with Strangers? Generalization of RL to Out-of-Distribution Trajectories

要約

タイトル:エージェントは見知らぬ人とリレーレースをすることができるのか?RLの一般化による配布対象軌跡

要約:

-この論文では、強化学習(RL)エージェントの「リレージェネラリゼーション」パフォーマンスを定義し、評価し、改善することを提案する。
-理想的には、一般的にタスクをこなせるRLエージェントは、少数の軌跡を記憶するのではなく、環境の任意の制御可能な状態からゴールに到達できるべきである。
-一般化を実際に評価するため、テストエージェントを他の独立した訓練済みエージェントの軌跡の中央から開始する。
-広範囲の実験評価により、見知らぬエージェントから制御可能な状態での「一般化失敗」の主要性を示す。
-‘Relay Generalization’を改善するため、Self-Trajectory Augmentation(STA)という新しい方法を提案する。
-STAを適用すると、エージェントのパフォーマンスに影響を与えず、環境相互作用の必要数を増やすことなく、大部分の設定でSACの失敗率を3倍以上減らしました。

要約(オリジナル)

In this paper, we define, evaluate, and improve the “relay-generalization” performance of reinforcement learning (RL) agents on the out-of-distribution “controllable” states. Ideally, an RL agent that generally masters a task should reach its goal starting from any controllable state of the environment instead of memorizing a small set of trajectories. For example, a self-driving system should be able to take over the control from humans in the middle of driving and must continue to drive the car safely. To practically evaluate this type of generalization, we start the test agent from the middle of other independently well-trained \emph{stranger} agents’ trajectories. With extensive experimental evaluation, we show the prevalence of \emph{generalization failure} on controllable states from stranger agents. For example, in the Humanoid environment, we observed that a well-trained Proximal Policy Optimization (PPO) agent, with only 3.9\% failure rate during regular testing, failed on 81.6\% of the states generated by well-trained stranger PPO agents. To improve ‘relay generalization,’ we propose a novel method called Self-Trajectory Augmentation (STA), which will reset the environment to the agent’s old states according to the Q function during training. After applying STA to the Soft Actor Critic’s (SAC) training procedure, we reduced the failure rate of SAC under relay-evaluation by more than three times in most settings without impacting agent performance and increasing the needed number of environment interactions. Our code is available at https://github.com/lan-lc/STA.

arxiv情報

著者 Li-Cheng Lan,Huan Zhang,Cho-Jui Hsieh
発行日 2023-04-26 10:12:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク