要約
非把握的操作のための多様なポリシーを学習することは、スキルの伝承と分布外シナリオへの一般化を改善するために不可欠です。
この研究では、離散アクション空間と連続アクション空間の両方に取り組むハイブリッド フレームワーク内で 2 つのアプローチを通じて探索を強化します。
まず、連続運動パラメータ ポリシーを拡散モデルとしてモデル化し、次にこれを、離散コンポーネントと連続コンポーネントの両方を統合する最大エントロピー強化学習フレームワークに組み込みます。
接触点の選択などの離散アクション空間は Q 値関数の最大化を通じて最適化され、連続部分は拡散ベースのポリシーによって導かれます。
このハイブリッド アプローチは、構造化された変分推論を使用して最大エントロピー項が下限として導出されるという原理的な目的につながります。
ハイブリッド拡散ポリシー アルゴリズム (HyDo) を提案し、シミュレーションとゼロショット sim2real タスクの両方でそのパフォーマンスを評価します。
私たちの結果は、HyDo がより多様な行動ポリシーを奨励し、タスク全体の成功率の大幅な向上につながることを示しています。たとえば、現実世界の 6D ポーズ調整タスクでは 53% から 72% に増加しました。
プロジェクトページ: https://leh2rng.github.io/hydo
要約(オリジナル)
Learning diverse policies for non-prehensile manipulation is essential for improving skill transfer and generalization to out-of-distribution scenarios. In this work, we enhance exploration through a two-fold approach within a hybrid framework that tackles both discrete and continuous action spaces. First, we model the continuous motion parameter policy as a diffusion model, and second, we incorporate this into a maximum entropy reinforcement learning framework that unifies both the discrete and continuous components. The discrete action space, such as contact point selection, is optimized through Q-value function maximization, while the continuous part is guided by a diffusion-based policy. This hybrid approach leads to a principled objective, where the maximum entropy term is derived as a lower bound using structured variational inference. We propose the Hybrid Diffusion Policy algorithm (HyDo) and evaluate its performance on both simulation and zero-shot sim2real tasks. Our results show that HyDo encourages more diverse behavior policies, leading to significantly improved success rates across tasks – for example, increasing from 53% to 72% on a real-world 6D pose alignment task. Project page: https://leh2rng.github.io/hydo
arxiv情報
著者 | Huy Le,Miroslav Gabriel,Tai Hoang,Gerhard Neumann,Ngo Anh Vien |
発行日 | 2024-11-22 13:14:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google