要約
大規模言語モデル (LLM) は、ほとんどの世界のオブジェクトの豊富な物理的記述を提供できるため、ロボットがより多くの情報に基づいて有能に把握できるようになります。
私たちは、LLM の常識的な物理的推論とコード作成能力を活用して、意味論的な記述から物体の物理的特性 (質量 $m$、摩擦係数 $\mu$、バネ定数 $k$) を推測し、それらを翻訳します。
特性を実行可能な適応型把握ポリシーに変換します。
深度カメラを内蔵した電流制御可能な 2 本指グリッパーを使用して、食品、農産物、玩具を含む 12 個の繊細で変形しやすい品目のカスタム ベンチマークにおいて、LLM で生成された物理的に根拠のある把握ポリシーが従来の把握ポリシーよりも優れていることを実証します。
、その他の日用品は、質量と必要なピックアップ力が 2 桁にも及びます。
また、DeliGrasp ポリシーからのコンプライアンス フィードバックが、農産物の成熟度の測定などの下流タスクにどのように役立つかを示します。
コードとビデオは https://deligrasp.github.io で入手できます。
要約(オリジナル)
Large language models (LLMs) can provide rich physical descriptions of most worldly objects, allowing robots to achieve more informed and capable grasping. We leverage LLMs’ common sense physical reasoning and code-writing abilities to infer an object’s physical characteristics–mass $m$, friction coefficient $\mu$, and spring constant $k$–from a semantic description, and then translate those characteristics into an executable adaptive grasp policy. Using a current-controllable, two-finger gripper with a built-in depth camera, we demonstrate that LLM-generated, physically-grounded grasp policies outperform traditional grasp policies on a custom benchmark of 12 delicate and deformable items including food, produce, toys, and other everyday items, spanning two orders of magnitude in mass and required pick-up force. We also demonstrate how compliance feedback from DeliGrasp policies can aid in downstream tasks such as measuring produce ripeness. Our code and videos are available at: https://deligrasp.github.io
arxiv情報
著者 | William Xie,Jensen Lavering,Nikolaus Correll |
発行日 | 2024-03-31 03:30:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google