CHORUS: Learning Canonicalized 3D Human-Object Spatial Relations from Unbounded Synthesized Images

要約

我々は、3D における人間と物体の多様な相互作用の根底にある空間的常識を、自己教師ありの方法で理解してモデル化するための教育機械の方法を提案します。
人間らしく自然であると考えられるインタラクションには特定の多様性が存在しますが、人間の姿勢やオブジェクトの幾何学形状は、同様のインタラクションであっても異なる可能性があるため、これは困難な作業です。
このような多様性により、3D インタラクションのアノテーション付けタスクが困難になり、拡張が難しくなり、教師付きの方法でそれについて推論する可能性が制限されます。
インタラクション中の人間とオブジェクト間の 3D 空間関係を学習する 1 つの方法は、人間が同じ種類のオブジェクトと対話するときに、異なる視点からキャプチャされた複数の 2D 画像を表示することです。
私たちの方法の核となるアイデアは、効果的な制御性とビューの多様性を備えた「無制限」データ ジェネレーターとして、任意のテキスト プロンプト入力から高品質の 2D 画像を生成する生成モデルを活用することです。
実際の画像に比べて画質が不完全であるにもかかわらず、合成画像は 3D の人間と物体の空間関係を学習するのに十分であることを実証します。
我々は、合成画像を活用するための複数の戦略を提示します。その中には、(1) 3D 人物とオブジェクトの空間関係の学習に生成画像モデルを活用する最初の方法、(2)
(2) ポーズの正規化による 3D 占有推論を介して、自己教師ありの方法で一貫性のない 2D キューから 3D 空間関係を推論するフレームワーク。
(3) 同じオブジェクトタイプとの異なるタイプの相互作用を明確にするためのセマンティッククラスタリング。
(4) インタラクションの 3D 空間学習の質を評価するための新しい指標。
プロジェクトページ: https://jellyheadandrew.github.io/projects/chorus

要約(オリジナル)

We present a method for teaching machines to understand and model the underlying spatial common sense of diverse human-object interactions in 3D in a self-supervised way. This is a challenging task, as there exist specific manifolds of the interactions that can be considered human-like and natural, but the human pose and the geometry of objects can vary even for similar interactions. Such diversity makes the annotating task of 3D interactions difficult and hard to scale, which limits the potential to reason about that in a supervised way. One way of learning the 3D spatial relationship between humans and objects during interaction is by showing multiple 2D images captured from different viewpoints when humans interact with the same type of objects. The core idea of our method is to leverage a generative model that produces high-quality 2D images from an arbitrary text prompt input as an ‘unbounded’ data generator with effective controllability and view diversity. Despite its imperfection of the image quality over real images, we demonstrate that the synthesized images are sufficient to learn the 3D human-object spatial relations. We present multiple strategies to leverage the synthesized images, including (1) the first method to leverage a generative image model for 3D human-object spatial relation learning; (2) a framework to reason about the 3D spatial relations from inconsistent 2D cues in a self-supervised manner via 3D occupancy reasoning with pose canonicalization; (3) semantic clustering to disambiguate different types of interactions with the same object types; and (4) a novel metric to assess the quality of 3D spatial learning of interaction. Project Page: https://jellyheadandrew.github.io/projects/chorus

arxiv情報

著者 Sookwan Han,Hanbyul Joo
発行日 2023-08-23 17:59:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク