要約
両手操作は、多くのロボットアプリケーションにとって重要である。シングルアーム操作とは対照的に、両手操作タスクは高次元のアクション空間のため困難である。先行研究は、この問題に対処するために、大量のデータとプリミティブアクションを活用していますが、サンプルの非効率性と様々なタスクに対する限定的な汎化に苦しんでいる可能性があります。このため、我々はVoxAct-Bを提案する。VoxAct-Bは、視覚言語モデル(VLM)を活用し、シーン内の重要な領域に優先順位を付け、ボクセルグリッドを再構成する、言語条件付きのボクセルベースの手法である。このボクセルグリッドを両手操作ポリシーに与え、演技と安定化動作を学習する。このアプローチにより、ボクセルからより効率的なポリシーの学習が可能となり、異なるタスクへの一般化が可能である。シミュレーションの結果、VoxAct-Bは、きめ細かな両手操作タスクにおいて、強力なベースラインを凌駕することが示された。さらに、2台のUR5を使って、実際の$texttt{Open Drawer}$タスクと$texttt{Open Jar}$タスクでVoxAct-Bを実証する。コード、データ、ビデオはhttps://voxact-b.github.io。
要約(オリジナル)
Bimanual manipulation is critical to many robotics applications. In contrast to single-arm manipulation, bimanual manipulation tasks are challenging due to higher-dimensional action spaces. Prior works leverage large amounts of data and primitive actions to address this problem, but may suffer from sample inefficiency and limited generalization across various tasks. To this end, we propose VoxAct-B, a language-conditioned, voxel-based method that leverages Vision Language Models (VLMs) to prioritize key regions within the scene and reconstruct a voxel grid. We provide this voxel grid to our bimanual manipulation policy to learn acting and stabilizing actions. This approach enables more efficient policy learning from voxels and is generalizable to different tasks. In simulation, we show that VoxAct-B outperforms strong baselines on fine-grained bimanual manipulation tasks. Furthermore, we demonstrate VoxAct-B on real-world $\texttt{Open Drawer}$ and $\texttt{Open Jar}$ tasks using two UR5s. Code, data, and videos will be available at https://voxact-b.github.io.
arxiv情報
著者 | I-Chun Arthur Liu,Sicheng He,Daniel Seita,Gaurav Sukhatme |
発行日 | 2024-07-04 20:58:20+00:00 |
arxivサイト | arxiv_id(pdf) |