Visual Affordances: Enabling Robots to Understand Object Functionality

要約

支援技術の人間とロボットの相互作用は、アフォーダンスの予測に依存しています。これは、ロボットがオブジェクトで実行できる潜在的なアクションです。
視覚認識からオブジェクトアフォーダンスを予測することは、把握検出、アフォーダンス分類、アフォーダンスセグメンテーション、ハンドオブジェクト相互作用合成などのタスクでは異なる方法で定式化されています。
この作業では、これらの再定義の再現性の問題を強調し、比較ベンチマークを不公平で信頼できないものにします。
この問題に対処するために、視覚的なアフォーダンス予測のための統一された定式化を提案し、方法とデータセットの強みと制限を強調した以前の作品の包括的かつ体系的なレビューを提供し、再現性の課題を分析します。
透明性を支持するために、アフォーダンスシート、提案されたソリューション、データセット、および検証を詳述するドキュメントを紹介します。
オブジェクトの物理的特性がロボットとの相互作用に影響を与えるため、視覚的なアフォーダンスの予測を物理的な世界にリンクする一般的なフレームワークを提示します。
このフレームワークの例としてオブジェクトの重みを使用して、オブジェクトの質量を推定することでアフォーダンス予測にどのように影響するかについて説明します。
私たちのアプローチは、アフォーダンスの知覚とロボットの作動の間のギャップを橋渡しし、関心のあるオブジェクトとロボットがそれらとどのように対話してタスクを達成するかについての完全な情報を説明します。

要約(オリジナル)

Human-robot interaction for assistive technologies relies on the prediction of affordances, which are the potential actions a robot can perform on objects. Predicting object affordances from visual perception is formulated differently for tasks such as grasping detection, affordance classification, affordance segmentation, and hand-object interaction synthesis. In this work, we highlight the reproducibility issue in these redefinitions, making comparative benchmarks unfair and unreliable. To address this problem, we propose a unified formulation for visual affordance prediction, provide a comprehensive and systematic review of previous works highlighting strengths and limitations of methods and datasets, and analyse what challenges reproducibility. To favour transparency, we introduce the Affordance Sheet, a document to detail the proposed solution, the datasets, and the validation. As the physical properties of an object influence the interaction with the robot, we present a generic framework that links visual affordance prediction to the physical world. Using the weight of an object as an example for this framework, we discuss how estimating object mass can affect the affordance prediction. Our approach bridges the gap between affordance perception and robot actuation, and accounts for the complete information about objects of interest and how the robot interacts with them to accomplish its task.

arxiv情報

著者 Tommaso Apicella,Alessio Xompero,Andrea Cavallaro
発行日 2025-05-08 09:10:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク