要約
将来の軌道を予測するためにシーケンスモデリングを使用して意思決定の問題に対処することは、近年有望な結果を示しています。
このホワイトペーパーでは、長期計画、ビジョンベースの制御、マルチタスクの意思決定など、より広い領域でシーケンス予測手法を活用するためにさらに一歩進めます。
この目的を達成するために、拡散ベースの生成シーケンス モデルを利用して潜在空間内の一連のマイルストーンを計画し、エージェントがそのマイルストーンに従って所定のタスクを達成する方法を提案します。
提案手法は制御に関わるマイルストーンの低次元潜在表現を学習することができるため、長期計画やビジョンベースの制御を効率的に行うことが可能となります。
さらに、私たちのアプローチは拡散モデルの世代の柔軟性を活用しており、これによりマルチタスクの意思決定のための多様な軌道を計画することが可能になります。
オフライン強化学習 (RL) ベンチマークと視覚操作環境にわたって、提案された手法を実証します。
その結果、私たちのアプローチは、長期にわたる報酬の少ないタスクやマルチタスクの問題を解決する際にオフライン RL 手法よりも優れたパフォーマンスを示し、同時に最も困難な視覚ベースの操作ベンチマークでも最先端のパフォーマンスを達成できることがわかりました。
要約(オリジナル)
Addressing decision-making problems using sequence modeling to predict future trajectories shows promising results in recent years. In this paper, we take a step further to leverage the sequence predictive method in wider areas such as long-term planning, vision-based control, and multi-task decision-making. To this end, we propose a method to utilize a diffusion-based generative sequence model to plan a series of milestones in a latent space and to have an agent to follow the milestones to accomplish a given task. The proposed method can learn control-relevant, low-dimensional latent representations of milestones, which makes it possible to efficiently perform long-term planning and vision-based control. Furthermore, our approach exploits generation flexibility of the diffusion model, which makes it possible to plan diverse trajectories for multi-task decision-making. We demonstrate the proposed method across offline reinforcement learning (RL) benchmarks and an visual manipulation environment. The results show that our approach outperforms offline RL methods in solving long-horizon, sparse-reward tasks and multi-task problems, while also achieving the state-of-the-art performance on the most challenging vision-based manipulation benchmark.
arxiv情報
著者 | Mineui Hong,Minjae Kang,Songhwai Oh |
発行日 | 2023-12-06 10:09:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google