要約
オープンワールドとの効果的なインタラクションのために、ロボットは、既知のオブジェクトと新しいオブジェクトとのインタラクションが目標達成にどのように役立つかを理解する必要があります。
この理解の重要な側面は、オブジェクトのアフォーダンスを検出することにあります。アフォーダンスは、オブジェクトをさまざまな方法で操作することによって達成できる潜在的な効果を表します。
私たちのアプローチは、大規模言語モデル (LLM) とビジョン言語モデル (VLM) の対話を活用して、オープンワールド アフォーダンス検出を実現します。
意図されたアクションと効果についてのオープンな語彙の説明が与えられると、環境内の有用なオブジェクトが見つかります。
私たちのシステムを物理世界に根付かせることで、ロボットの具体化とロボットが遭遇する物体の固有の特性を考慮します。
私たちの実験では、私たちの方法がさまざまな実施形態や意図した効果に基づいて調整された出力を生成することを示しました。
この方法では、一連のディストラクタから有用なオブジェクトを選択することができました。
物理特性に合わせて VLM を微調整することで、全体的なパフォーマンスが向上しました。
これらの結果は、ロボットの具体化と物体の物理的特性を考慮して、物理世界におけるアフォーダンス検索の基礎を築くことの重要性を強調しています。
要約(オリジナル)
For effective interactions with the open world, robots should understand how interactions with known and novel objects help them towards their goal. A key aspect of this understanding lies in detecting an object’s affordances, which represent the potential effects that can be achieved by manipulating the object in various ways. Our approach leverages a dialogue of large language models (LLMs) and vision-language models (VLMs) to achieve open-world affordance detection. Given open-vocabulary descriptions of intended actions and effects, the useful objects in the environment are found. By grounding our system in the physical world, we account for the robot’s embodiment and the intrinsic properties of the objects it encounters. In our experiments, we have shown that our method produces tailored outputs based on different embodiments or intended effects. The method was able to select a useful object from a set of distractors. Finetuning the VLM for physical properties improved overall performance. These results underline the importance of grounding the affordance search in the physical world, by taking into account robot embodiment and the physical properties of objects.
arxiv情報
著者 | Anne Kemmeren,Gertjan Burghouts,Michael van Bekkum,Wouter Meijer,Jelle van Mil |
発行日 | 2024-07-18 11:08:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google