要約
我々は、画像から人間と物体の相互作用の多様な3Dモデルを推論する方法を提案する。1枚の2次元画像から、複雑なシーンにおける人間と物体とのインタラクションを推論することは、投影による情報の損失から生じる曖昧さを考慮すると、困難なタスクである。また、3次元インタラクションのモデル化には、多様な物体カテゴリやインタラクションタイプに対する汎化能力が必要である。我々は、接触領域や3次元シーンの形状に依存することなく、人間と物体の多様な3次元配置を推論することができる行動条件付きインタラクションモデリングを提案する。本手法は、GPT-3などの大規模言語モデルから高レベルの常識的知識を抽出し、それを適用して人間と物体の相互作用の3次元推論を行う。本手法では、大規模言語モデルから抽出された事前知識を用いることで、文字情報のみから人物と物体の接触を推論することが可能である。我々は、推論された3Dモデルを大規模な人間とオブジェクトのインタラクションデータセット上で定量的に評価し、我々の方法がいかに優れた3D再構成をもたらすかを示す。さらに、実画像を用いて本手法の有効性を定性的に評価し、インタラクションの種類やオブジェクトのカテゴリに対する本手法の一般性を実証する。
要約(オリジナル)
We present a method for inferring diverse 3D models of human-object interactions from images. Reasoning about how humans interact with objects in complex scenes from a single 2D image is a challenging task given ambiguities arising from the loss of information through projection. In addition, modeling 3D interactions requires the generalization ability towards diverse object categories and interaction types. We propose an action-conditioned modeling of interactions that allows us to infer diverse 3D arrangements of humans and objects without supervision on contact regions or 3D scene geometry. Our method extracts high-level commonsense knowledge from large language models (such as GPT-3), and applies them to perform 3D reasoning of human-object interactions. Our key insight is priors extracted from large language models can help in reasoning about human-object contacts from textural prompts only. We quantitatively evaluate the inferred 3D models on a large human-object interaction dataset and show how our method leads to better 3D reconstructions. We further qualitatively evaluate the effectiveness of our method on real images and demonstrate its generalizability towards interaction types and object categories.
arxiv情報
著者 | Xi Wang,Gen Li,Yen-Ling Kuo,Muhammed Kocabas,Emre Aksan,Otmar Hilliges |
発行日 | 2022-09-06 13:32:55+00:00 |
arxivサイト | arxiv_id(pdf) |