MuTT: A Multimodal Trajectory Transformer for Robot Skills

要約

高度なロボット スキルは、ロボット プログラミングにおいてますます人気のあるパラダイムを表しています。
ただし、特定のタスクに合わせてスキルのパラメータを構成するのは依然として手動であり、時間のかかる作業です。
これらのパラメーターを学習または最適化するための既存のアプローチは、多くの場合、現実世界で多数の実行を必要とするか、動的環境では機能しません。
これらの課題に対処するために、我々は、視覚、軌道、およびロボットスキルパラメータを統合することによって、ロボットスキルの環境を認識した実行を予測するように設計された新しいエンコーダ-デコーダトランスフォーマアーキテクチャであるMuTTを提案します。
特に、当社はビジョンと軌道の融合を先駆けて、新しい軌道投影を導入しています。
さらに、モデルベースのロボット スキル オプティマイザーと組み合わせた場合の、予測因子としての MuTT の有効性を示します。
このアプローチにより、最適化中に実際に実行する必要がなく、現在の環境に合わせたロボット スキル パラメータの最適化が容易になります。
ロボット スキルのあらゆる表現との互換性を考慮して設計された MuTT は、3 つの包括的な実験でその多用途性を実証し、2 つの異なるスキル表現で優れたパフォーマンスを示しました。

要約(オリジナル)

High-level robot skills represent an increasingly popular paradigm in robot programming. However, configuring the skills’ parameters for a specific task remains a manual and time-consuming endeavor. Existing approaches for learning or optimizing these parameters often require numerous real-world executions or do not work in dynamic environments. To address these challenges, we propose MuTT, a novel encoder-decoder transformer architecture designed to predict environment-aware executions of robot skills by integrating vision, trajectory, and robot skill parameters. Notably, we pioneer the fusion of vision and trajectory, introducing a novel trajectory projection. Furthermore, we illustrate MuTT’s efficacy as a predictor when combined with a model-based robot skill optimizer. This approach facilitates the optimization of robot skill parameters for the current environment, without the need for real-world executions during optimization. Designed for compatibility with any representation of robot skills, MuTT demonstrates its versatility across three comprehensive experiments, showcasing superior performance across two different skill representations.

arxiv情報

著者 Claudius Kienle,Benjamin Alt,Onur Celik,Philipp Becker,Darko Katic,Rainer Jäkel,Gerhard Neumann
発行日 2024-08-22 09:12:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク