Wasserstein Gradient Flows for Optimizing Gaussian Mixture Policies

要約

ロボットは、さまざまな複雑なタスクを実行するために、以前に学習した動作ポリシーのレパートリーに依存することがよくあります。
目に見えないタスク条件に直面したり、新しいタスク要件が発生したりした場合、ロボットはそれに応じて動作ポリシーを適応させる必要があります。
この文脈において、ポリシーの最適化は、タスク固有の目標に応じてロボットのポリシーを適応させる \emph{事実上の}パラダイムです。
最も一般的に使用されるモーション ポリシーには、ポリシー最適化アルゴリズムでは見落とされがちな特定の構造が含まれています。
代わりに、ポリシーの最適化を最適な輸送問題としてキャストすることにより、確率的ポリシーの構造を活用することを提案します。
具体的には、混合ガウス モデル (GMM) に基づいて構築されるロボットの動作ポリシーに焦点を当て、GMM 空間上のワッサーテイン勾配フローとしてポリシーの最適化を定式化します。
これにより、当然のことながら、GMM 間の $L^2$-Wasserstein 距離を介してポリシーの更新を制約し、ポリシー最適化プロセスの安定性を高めることができます。
さらに、ビュール・ワッサーシュタイン多様体の幾何学を利用して、リーマン最適化を通じて GMM ポリシーのガウス分布を最適化します。
一般的なロボット設定、つまり到達動作、衝突回避行動、複数の目標タスクに対するアプローチを評価します。
私たちの結果は、タスクの成功率と低分散ソリューションの点で、私たちの方法が一般的なポリシー最適化ベースラインよりも優れていることを示しています。

要約(オリジナル)

Robots often rely on a repertoire of previously-learned motion policies for performing tasks of diverse complexities. When facing unseen task conditions or when new task requirements arise, robots must adapt their motion policies accordingly. In this context, policy optimization is the \emph{de facto} paradigm to adapt robot policies as a function of task-specific objectives. Most commonly-used motion policies carry particular structures that are often overlooked in policy optimization algorithms. We instead propose to leverage the structure of probabilistic policies by casting the policy optimization as an optimal transport problem. Specifically, we focus on robot motion policies that build on Gaussian mixture models (GMMs) and formulate the policy optimization as a Wassertein gradient flow over the GMMs space. This naturally allows us to constrain the policy updates via the $L^2$-Wasserstein distance between GMMs to enhance the stability of the policy optimization process. Furthermore, we leverage the geometry of the Bures-Wasserstein manifold to optimize the Gaussian distributions of the GMM policy via Riemannian optimization. We evaluate our approach on common robotic settings: Reaching motions, collision-avoidance behaviors, and multi-goal tasks. Our results show that our method outperforms common policy optimization baselines in terms of task success rate and low-variance solutions.

arxiv情報

著者 Hanna Ziesche,Leonel Rozo
発行日 2023-05-17 17:48:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク