要約
模倣学習ベースの視覚運動ポリシーは、操作タスクに優れていますが、モデルベースの方法と比較して最適でないアクション軌跡を生成することがよくあります。
カメラデータをニューラルネットワークを介したアクションに直接マッピングすると、ぎくしゃくした動きや、重要な制約を満たし、現実世界の展開における安全性と堅牢性の侵害が困難になる可能性があります。
制約の高い堅牢性または厳密な順守を必要とするタスクの場合、軌道の品質が重要であることを保証します。
ただし、ニューラルネットワークに解釈可能性がないため、制御された方法で制約に準拠したアクションを生成することが困難になります。
このペーパーでは、視覚運動ポリシーを強化するために設計された学習ベースの軌跡最適化フレームワークである一般化可能性(diffog)を使用した微分可能なポリシー軌道最適化を紹介します。
Transformerを使用した軌道最適化の提案された微分可能な定式化を活用することにより、Diffogは一般化可能な最適化レイヤーとポリシーをシームレスに統合します。
Diffogによって強化された視覚運動ポリシーは、より解釈可能な方法でよりスムーズで制約準拠のアクション軌跡を生成します。
Diffogは、強力な一般化能力と高い柔軟性を示します。
11のシミュレートされたタスクと2つの実際のタスクにわたるディフェグを評価しました。
結果は、ディフェグが視覚運動ポリシーの軌跡の品質を大幅に向上させながら、ポリシーのパフォーマンスに最小限の影響を与え、貪欲な制約クリッピングやペナルティベースの軌跡の最適化などの軌跡処理ベースラインを上回ることを示しています。
さらに、Diffogは、既存の制約された視覚運動ポリシーと比較して優れた性能を達成します。
要約(オリジナル)
Imitation learning-based visuomotor policies excel at manipulation tasks but often produce suboptimal action trajectories compared to model-based methods. Directly mapping camera data to actions via neural networks can result in jerky motions and difficulties in meeting critical constraints, compromising safety and robustness in real-world deployment. For tasks that require high robustness or strict adherence to constraints, ensuring trajectory quality is crucial. However, the lack of interpretability in neural networks makes it challenging to generate constraint-compliant actions in a controlled manner. This paper introduces differentiable policy trajectory optimization with generalizability (DiffOG), a learning-based trajectory optimization framework designed to enhance visuomotor policies. By leveraging the proposed differentiable formulation of trajectory optimization with transformer, DiffOG seamlessly integrates policies with a generalizable optimization layer. Visuomotor policies enhanced by DiffOG generate smoother, constraint-compliant action trajectories in a more interpretable way. DiffOG exhibits strong generalization capabilities and high flexibility. We evaluated DiffOG across 11 simulated tasks and 2 real-world tasks. The results demonstrate that DiffOG significantly enhances the trajectory quality of visuomotor policies while having minimal impact on policy performance, outperforming trajectory processing baselines such as greedy constraint clipping and penalty-based trajectory optimization. Furthermore, DiffOG achieves superior performance compared to existing constrained visuomotor policy.
arxiv情報
著者 | Zhengtong Xu,Zichen Miao,Qiang Qiu,Zhe Zhang,Yu She |
発行日 | 2025-04-18 17:20:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google