Afford-X: Generalizable and Slim Affordance Reasoning for Task-oriented Manipulation

要約

物理的特性に基づいてオブジェクト機能を推測する能力であるオブジェクトアフォーダンス推論は、人間と人工知能(AI)の両方におけるタスク指向の計画と活動の基本です。
この機能は、タスク指向の方法で日常の活動を計画および実行するために必要であり、オブジェクトの物理学と機能性に関する常識的な知識に依存し、単純なオブジェクト認識を超えて拡張されます。
認識からのアフォーダンス推論のための現在の計算モデルは、一般化可能性を欠いており、新しいシナリオでの適用性を制限しています。
一方、新たな推論機能を備えた包括的な大手言語モデル(LLM)は、タスク指向の操作のためにローカルデバイスに展開することが困難です。
ここでは、1,496のタスクと119kの画像を含む大規模なデータセットであるLVIS-AFFを紹介します。
このデータセットを利用して、マルチモーダル理解を改善するために動詞の注意と双融合モジュールを組み込んだエンドツーエンドのトレーニング可能なアフォーダンス推論モデルであるAffer-Xを開発します。
このモデルは、以前の会議論文と比較して1.2%の強化を実証すると同時に、非LLMメソッドからの最も報告された結果よりも最大12.1%のパフォーマンス改善を達成します。
さらに、コンパクトな187mパラメーターサイズを維持し、GPT-4V APIよりもほぼ50倍高速にインリングされます。
私たちの仕事は、タスク指向の操作のためにローカルデバイスに展開できる効率的で一般化可能なアフォーダンス推論モデルの可能性を示しています。
さまざまなタスクや環境にわたるロボットのタスク指向の操作を可能にする際に、Affer-Xの有効性を紹介し、その効率と、現実世界のアプリケーションでロボット工学とAIシステムを進めるための幅広い意味を強調しています。

要約(オリジナル)

Object affordance reasoning, the ability to infer object functionalities based on physical properties, is fundamental for task-oriented planning and activities in both humans and Artificial Intelligence (AI). This capability, required for planning and executing daily activities in a task-oriented manner, relies on commonsense knowledge of object physics and functionalities, extending beyond simple object recognition. Current computational models for affordance reasoning from perception lack generalizability, limiting their applicability in novel scenarios. Meanwhile, comprehensive Large Language Models (LLMs) with emerging reasoning capabilities are challenging to deploy on local devices for task-oriented manipulations. Here, we introduce LVIS-Aff, a large-scale dataset comprising 1,496 tasks and 119k images, designed to enhance the generalizability of affordance reasoning from perception. Utilizing this dataset, we develop Afford-X, an end-to-end trainable affordance reasoning model that incorporates Verb Attention and Bi-Fusion modules to improve multi-modal understanding. This model achieves up to a 12.1% performance improvement over the best-reported results from non-LLM methods, while also demonstrating a 1.2% enhancement compared to our previous conference paper. Additionally, it maintains a compact 187M parameter size and infers nearly 50 times faster than the GPT-4V API. Our work demonstrates the potential for efficient, generalizable affordance reasoning models that can be deployed on local devices for task-oriented manipulations. We showcase Afford-X’s effectiveness in enabling task-oriented manipulations for robots across various tasks and environments, underscoring its efficiency and broad implications for advancing robotics and AI systems in real-world applications.

arxiv情報

著者 Xiaomeng Zhu,Yuyang Li,Leiyao Cui,Pengfei Li,Huan-ang Gao,Yixin Zhu,Hao Zhao
発行日 2025-03-05 14:44:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク