要約
アフォーダンス・グラウンディングとは、人が対話できるオブジェクトの領域を見つけるタスクを指します。
これは、基本的ではありますが、困難な作業です。解決策を成功させるには、オブジェクトとその部分の検出、位置特定、認識、シーンの地理空間構成/レイアウト、3D 形状、および
物理学だけでなく、物体と人間の機能と潜在的な相互作用についても説明します。
知識の多くは隠されており、限定されたトレーニング セットからの教師付きラベルが付いた画像コンテンツの範囲外にあります。
この論文では、事前訓練された大規模ビジョン言語モデルからの豊かな世界、抽象的、および人間とオブジェクトの相互作用の知識を利用することにより、現在のアフォーダンス基盤の一般化能力を向上させる試みを行います。
AGD20K ベンチマークの下では、私たちが提案したモデルは、実際のオブジェクト アフォーダンス グラウンディングの競合する方法と比較して、大幅なパフォーマンスの向上を示しています。
さらに、トレーニング中にオブジェクトとアクションの両方が見えない場合でも、ランダムなインターネット画像からオブジェクトのアフォーダンスを確立できることを実証します。
プロジェクトサイト: https://jasonqsy.github.io/AffordanceLLM/
要約(オリジナル)
Affordance grounding refers to the task of finding the area of an object with which one can interact. It is a fundamental but challenging task, as a successful solution requires the comprehensive understanding of a scene in multiple aspects including detection, localization, and recognition of objects with their parts, of geo-spatial configuration/layout of the scene, of 3D shapes and physics, as well as of the functionality and potential interaction of the objects and humans. Much of the knowledge is hidden and beyond the image content with the supervised labels from a limited training set. In this paper, we make an attempt to improve the generalization capability of the current affordance grounding by taking the advantage of the rich world, abstract, and human-object-interaction knowledge from pretrained large-scale vision language models. Under the AGD20K benchmark, our proposed model demonstrates a significant performance gain over the competing methods for in-the-wild object affordance grounding. We further demonstrate it can ground affordance for objects from random Internet images, even if both objects and actions are unseen during training. Project site: https://jasonqsy.github.io/AffordanceLLM/
arxiv情報
著者 | Shengyi Qian,Weifeng Chen,Min Bai,Xiong Zhou,Zhuowen Tu,Li Erran Li |
発行日 | 2024-04-17 20:33:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google