要約
自律的な器用な操作を促進するために、微調整された視覚言語動作 (VLA) モデルと拡散モデルの相対的な利点を組み合わせたハイブリッド制御手法を提案します。
VLA モデルは、高度に一般化可能な言語命令による高レベルの計画を提供します。一方、拡散モデルは、特定のオブジェクトや環境に必要な精度と堅牢性を提供する低レベルの相互作用を処理します。
トレーニング データに切り替え信号を組み込むことで、ターゲット オブジェクトと配置場所が言語を通じて命令されるピック アンド プレイス タスクのこれら 2 つのモデル間のイベント ベースの遷移が可能になります。
このアプローチは、当社の擬人化 ADAPT Hand 2 (13DoF ロボット ハンド) に導入されており、一連の弾性作動によるコンプライアンスが組み込まれており、あらゆるインタラクションに対する復元力を実現しています。これは、VLA モデルで制御される多指ハンドの最初の使用例を示しています。
このモデル切り替えアプローチにより、VLA モデルのみを使用した場合の成功率が 40% 未満であるのに対し、80% 以上になることを実証します。これは、VLA モデルによる正確な物体近くのアーム動作と、エラー回復機能を備えたマルチモーダル把握動作によって可能になります。
拡散モデルの能力。
要約(オリジナル)
To advance autonomous dexterous manipulation, we propose a hybrid control method that combines the relative advantages of a fine-tuned Vision-Language-Action (VLA) model and diffusion models. The VLA model provides language commanded high-level planning, which is highly generalizable, while the diffusion model handles low-level interactions which offers the precision and robustness required for specific objects and environments. By incorporating a switching signal into the training-data, we enable event based transitions between these two models for a pick-and-place task where the target object and placement location is commanded through language. This approach is deployed on our anthropomorphic ADAPT Hand 2, a 13DoF robotic hand, which incorporates compliance through series elastic actuation allowing for resilience for any interactions: showing the first use of a multi-fingered hand controlled with a VLA model. We demonstrate this model switching approach results in a over 80\% success rate compared to under 40\% when only using a VLA model, enabled by accurate near-object arm motion by the VLA model and a multi-modal grasping motion with error recovery abilities from the diffusion model.
arxiv情報
著者 | Cheng Pan,Kai Junge,Josie Hughes |
発行日 | 2024-10-17 20:49:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google