要約
ディープ強化学習(RL)は、ロボット工学、輸送、推奨システムなど、さまざまなドメインでの意思決定タスクの解決に効果的であることが調査および検証されています。環境との相互作用から学習し、収集されたエクスペリエンスを使用してポリシーを更新します
。
ただし、実世界のデータが限られているため、有害な行動をとることの耐え難い結果により、RLポリシーの学習は主にシミュレータ内で制限されています。
この実践は、学習の安全性を保証しますが、展開の観点から避けられないSIMとリアルのギャップを導入し、パフォーマンスの低下と実行のリスクを引き起こします。
さまざまなテクニックを備えたさまざまなドメインからのSIM-to-Realの問題を解決しようとする試みがあります。特に、SIMからリアルに光を当てる大きな基礎や言語モデルなどの新たなテクニックを備えた時代にあります。
この調査論文は、私たちの知る限り、マルコフ決定プロセス(州、行動、移行、報酬)の重要な要素からのSIMからリアルの技術を正式に組み立てる最初の分類法です。
フレームワークに基づいて、Foundation Modelsが力を与えられるSIMからリアルのテクニックなど、クラシックから最も高度な方法までの包括的な文献を取り上げ、SIM-to-Realの問題の異なるドメインで注意する価値のある専門分野についても説明します。
。
次に、アクセス可能なコードまたはベンチマークを使用して、SIM-to-Realパフォーマンスの正式な評価プロセスを要約します。
この方向の将来の探求を促進するために、課題と機会も提示されています。
私たちは、ドメインの研究者を支援するために、最も最新のSIMから現実的な研究作業を含めるようにリポジトリを積極的に維持しています。
要約(オリジナル)
Deep Reinforcement Learning (RL) has been explored and verified to be effective in solving decision-making tasks in various domains, such as robotics, transportation, recommender systems, etc. It learns from the interaction with environments and updates the policy using the collected experience. However, due to the limited real-world data and unbearable consequences of taking detrimental actions, the learning of RL policy is mainly restricted within the simulators. This practice guarantees safety in learning but introduces an inevitable sim-to-real gap in terms of deployment, thus causing degraded performance and risks in execution. There are attempts to solve the sim-to-real problems from different domains with various techniques, especially in the era with emerging techniques such as large foundations or language models that have cast light on the sim-to-real. This survey paper, to the best of our knowledge, is the first taxonomy that formally frames the sim-to-real techniques from key elements of the Markov Decision Process (State, Action, Transition, and Reward). Based on the framework, we cover comprehensive literature from the classic to the most advanced methods including the sim-to-real techniques empowered by foundation models, and we also discuss the specialties that are worth attention in different domains of sim-to-real problems. Then we summarize the formal evaluation process of sim-to-real performance with accessible code or benchmarks. The challenges and opportunities are also presented to encourage future exploration of this direction. We are actively maintaining a repository to include the most up-to-date sim-to-real research work to help domain researchers.
arxiv情報
著者 | Longchao Da,Justin Turnau,Thirulogasankar Pranav Kutralingam,Alvaro Velasquez,Paulo Shakarian,Hua Wei |
発行日 | 2025-02-25 00:25:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google