Stochastic Trajectory Optimization for Robotic Skill Acquisition From a Suboptimal Demonstration

要約

デモンストレーション(LFD)から学ぶことは、ロボットが新しいスキルを獲得するための重要な方法として浮上しています。
ただし、人間の好みを反映する形状特性を備えた最適ではないが、スローモーションなどの下位の動的属性を備えた軌道軌跡デモンストレーションが与えられた場合、ロボットは動作を模倣するだけでなく、動的パフォーマンスを最適化する必要があります。
この作業では、最適化ベースの方法を活用して、形状が実証された軌道の形状と似ている優れたパフォーマンスの軌道を検索します。
具体的には、動的タイムワーピング(DTW)を使用して、2つの軌跡の違いを定量化し、衝突コストなどの追加のパフォーマンスメトリックと組み合わせてコスト関数を構築します。
さらに、MSTOMPと呼ばれるモーションプランニング(STOMP)の確率的軌道最適化のマルチポリティバージョンを開発します。これは、パラメーターの変更により安定して堅牢です。
実証された軌道でジッターに対処するために、周波数領域のゲイン制御方法をさらに利用して、デモンストレーションを除去し、周波数ドメインの軌跡の違いを測定するスペクトル(MSES)の平均平方根誤差(MSES)と呼ばれる計算的に効率的なメトリックを提案します。
また、時間領域と周波数領域のメソッド間の接続を理論的に強調します。
最後に、シミュレーション実験と実際の実験の両方で方法を検証し、既存の方法と比較して最適化のパフォーマンスと安定性の改善を紹介します。

要約(オリジナル)

Learning from Demonstration (LfD) has emerged as a crucial method for robots to acquire new skills. However, when given suboptimal task trajectory demonstrations with shape characteristics reflecting human preferences but subpar dynamic attributes such as slow motion, robots not only need to mimic the behaviors but also optimize the dynamic performance. In this work, we leverage optimization-based methods to search for a superior-performing trajectory whose shape is similar to that of the demonstrated trajectory. Specifically, we use Dynamic Time Warping (DTW) to quantify the difference between two trajectories and combine it with additional performance metrics, such as collision cost, to construct the cost function. Moreover, we develop a multi-policy version of the Stochastic Trajectory Optimization for Motion Planning (STOMP), called MSTOMP, which is more stable and robust to parameter changes. To deal with the jitter in the demonstrated trajectory, we further utilize the gain-controlling method in the frequency domain to denoise the demonstration and propose a computationally more efficient metric, called Mean Square Error in the Spectrum (MSES), that measures the trajectories’ differences in the frequency domain. We also theoretically highlight the connections between the time domain and the frequency domain methods. Finally, we verify our method in both simulation experiments and real-world experiments, showcasing its improved optimization performance and stability compared to existing methods.

arxiv情報

著者 Chenlin Ming,Zitong Wang,Boxuan Zhang,Zhanxiang Cao,Xiaoming Duan,Jianping He
発行日 2025-04-18 05:47:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY パーマリンク