Understanding 3D Object Interaction from a Single Image

要約

人間は、単一の画像を、相互作用を可能にする複数の潜在的なオブジェクトを描写しているものとして容易に理解できます。
私たちはこのスキルを使用して世界との対話を計画し、対話を行わずに新しいオブジェクトの理解を加速します。
この論文では、インテリジェント エージェントが 3D シーンをより適切に探索したり、オブジェクトを操作したりできるように、マシンに同様の機能を与えたいと考えています。
私たちのアプローチは、オブジェクトの 3D 位置、物理的特性、アフォーダンスを予測するトランスフォーマー ベースのモデルです。
このモデルを強化するために、インターネット ビデオ、自己中心的なビデオ、屋内画像を含むデータセットを収集し、アプローチをトレーニングして検証します。
私たちのモデルはデータに対して強力なパフォーマンスをもたらし、ロボット データによく一般化します。

要約(オリジナル)

Humans can easily understand a single image as depicting multiple potential objects permitting interaction. We use this skill to plan our interactions with the world and accelerate understanding new objects without engaging in interaction. In this paper, we would like to endow machines with the similar ability, so that intelligent agents can better explore the 3D scene or manipulate objects. Our approach is a transformer-based model that predicts the 3D location, physical properties and affordance of objects. To power this model, we collect a dataset with Internet videos, egocentric videos and indoor images to train and validate our approach. Our model yields strong performance on our data, and generalizes well to robotics data.

arxiv情報

著者 Shengyi Qian,David F. Fouhey
発行日 2023-05-16 17:59:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク