PhyGrasp: Generalizing Robotic Grasping with Physics-informed Large Multimodal Models

要約

ロボットによる把握はロボットの機能の基本的な側面であり、ロボットが物体とどのように対話するかを定義します。
大幅な進歩にもかかわらず、珍しい素材や形状の物体など、直観に反するシナリオや尾の長いシナリオへの一般化可能性は依然として課題です。
対照的に、人間は直感的な物理学を簡単に応用して、これまで見たことのない物体であっても、巧みに把握したり、効率的に把握を変更したりすることができます。
この研究では、そのような物理的な常識的推論をロボットの操作に注入することを掘り下げています。
PhyGrasp は、自然言語と 3D 点群という 2 つのモダリティからの入力を活用し、ブリッジ モジュールを通じてシームレスに統合されたマルチモーダルな大規模モデルです。
言語モダリティは、物体の形状や部品を理解する一方で、3D モダリティは物体の把握に対するさまざまな物理的特性の影響に関して堅牢な推論能力を示します。
これら 2 つの機能により、PhyGrasp はオブジェクト部分の物理的特性を正確に評価し、最適な把握ポーズを決定することができます。
さらに、モデルの言語理解により、人間の指示の解釈が可能になり、人間の好みに合わせた掴みポーズを生成できます。
PhyGrasp をトレーニングするために、さまざまな物理的特性と人間の好みを持つ 195,000 のオブジェクト インスタンスと、対応する言語の説明を含むデータセット PhyPartNet を構築します。
シミュレーションと実際のロボットで行われた広範な実験により、PhyGrasp が最先端のパフォーマンス、特にロングテールのケースで達成できることが実証されています (例: GraspNet に比べて成功率が約 10% 向上)。
プロジェクトページ: https://sites.google.com/view/phygrasp

要約(オリジナル)

Robotic grasping is a fundamental aspect of robot functionality, defining how robots interact with objects. Despite substantial progress, its generalizability to counter-intuitive or long-tailed scenarios, such as objects with uncommon materials or shapes, remains a challenge. In contrast, humans can easily apply their intuitive physics to grasp skillfully and change grasps efficiently, even for objects they have never seen before. This work delves into infusing such physical commonsense reasoning into robotic manipulation. We introduce PhyGrasp, a multimodal large model that leverages inputs from two modalities: natural language and 3D point clouds, seamlessly integrated through a bridge module. The language modality exhibits robust reasoning capabilities concerning the impacts of diverse physical properties on grasping, while the 3D modality comprehends object shapes and parts. With these two capabilities, PhyGrasp is able to accurately assess the physical properties of object parts and determine optimal grasping poses. Additionally, the model’s language comprehension enables human instruction interpretation, generating grasping poses that align with human preferences. To train PhyGrasp, we construct a dataset PhyPartNet with 195K object instances with varying physical properties and human preferences, alongside their corresponding language descriptions. Extensive experiments conducted in the simulation and on the real robots demonstrate that PhyGrasp achieves state-of-the-art performance, particularly in long-tailed cases, e.g., about 10% improvement in success rate over GraspNet. Project page: https://sites.google.com/view/phygrasp

arxiv情報

著者 Dingkun Guo,Yuqi Xiang,Shuqi Zhao,Xinghao Zhu,Masayoshi Tomizuka,Mingyu Ding,Wei Zhan
発行日 2024-02-26 18:57:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.RO パーマリンク