要約
デシジョン・トランスフォーマー(DT)は、教師あり学習(RvS)による強化学習の代表的な手法の1つであり、逐次的な意思決定のための強力なトランスフォーマーアーキテクチャを活用することで、オフライン学習タスクにおいて強力な性能を達成してきた。しかし、敵対的な環境では、これらの手法は、意思決定者と敵対者双方の戦略にリターンが依存するため、ロバストでない可能性がある。行動を予測するために、観測されたリターンを条件とする確率的モデルをトレーニングすると、データセットのリターンを達成した軌道が、最適でない行動をとる敵対者によって達成された可能性があるため、一般化に失敗する可能性がある。この問題に対処するために、我々はワーストケースを考慮したRvSアルゴリズム、ARDT(Adversarially Robust Decision Transformer)を提案する。ARDTは目標リターンをminimax expectile regressionによって学習された最悪ケースリターンに合わせることで、強力なテスト時間の敵対者に対する頑健性を高める。完全なデータカバレッジを持つ逐次ゲームで実施された実験では、ARDTは最大の敵対的ロバスト性を持つ解であるマキシミン(ナッシュ均衡)戦略を生成することができる。部分的なデータカバレッジを持つ大規模な逐次ゲームや連続的な敵対的RL環境において、ARDTは、現代のDT手法と比較して、強力なテスト時間の敵対者に対して著しく優れた頑健性を示し、より高いワーストケースリターンを達成する。
要約(オリジナル)
Decision Transformer (DT), as one of the representative Reinforcement Learning via Supervised Learning (RvS) methods, has achieved strong performance in offline learning tasks by leveraging the powerful Transformer architecture for sequential decision-making. However, in adversarial environments, these methods can be non-robust, since the return is dependent on the strategies of both the decision-maker and adversary. Training a probabilistic model conditioned on observed return to predict action can fail to generalize, as the trajectories that achieve a return in the dataset might have done so due to a suboptimal behavior adversary. To address this, we propose a worst-case-aware RvS algorithm, the Adversarially Robust Decision Transformer (ARDT), which learns and conditions the policy on in-sample minimax returns-to-go. ARDT aligns the target return with the worst-case return learned through minimax expectile regression, thereby enhancing robustness against powerful test-time adversaries. In experiments conducted on sequential games with full data coverage, ARDT can generate a maximin (Nash Equilibrium) strategy, the solution with the largest adversarial robustness. In large-scale sequential games and continuous adversarial RL environments with partial data coverage, ARDT demonstrates significantly superior robustness to powerful test-time adversaries and attains higher worst-case returns compared to contemporary DT methods.
arxiv情報
著者 | Xiaohang Tang,Afonso Marques,Parameswaran Kamalaruban,Ilija Bogunovic |
発行日 | 2024-11-01 17:47:03+00:00 |
arxivサイト | arxiv_id(pdf) |