要約
AI における主要な課題の 1 つは、環境機能に正確に応答して利用するように機械に学習させ、それによって人間が持つアフォーダンス認識を達成することです。
その重要性にもかかわらず、人間とオブジェクトのインタラクションには多数のバリエーションがあるため、アフォーダンスに注釈を付けるには骨の折れるプロセスが伴うため、この分野は特に 3D において学習が遅れています。
アフォーダンス データの可用性が低いため、オブジェクト カテゴリの一般化の観点から学習が制限され、またアフォーダンスの表現が単純化され、アフォーダンスの一部のみがキャプチャされます。
これらの課題を克服するために、手動の注釈を一切使用せずに、3D オブジェクトのみを与えて 3D アフォーダンスの例を生成する、新しい自己教師ありの方法を提案します。
この方法は、まず 3D オブジェクトを画像にキャプチャし、拡散モデルの修復によって画像に人間を挿入することで 2D アフォーダンス画像を作成します。ここで、オブジェクトの元の詳細を変更せずに人間の挿入を可能にするアダプティブ マスク アルゴリズムを提示します。
この方法では、挿入された人間を 3D に戻して 3D の人間とオブジェクトのペアを作成します。そこで、複数の視点から事前に生成された人間の姿勢を利用する深度最適化フレームワーク内で深度のあいまいさが解決されます。
また、人間と物体の密集点の間の相対的な方向と近接度に基づいて定義された新しいアフォーダンス表現も提供します。これは、任意の 3D HOI データセットから簡単に集約できます。
提案された表現は、物理的に発揮されるアフォーダンスから非物理的なアフォーダンスまで、単純な変換を介して従来のアフォーダンス表現に明示できるプリミティブとして機能します。
3D アフォーダンス サンプルを生成し、その表現から接触、方向、空間占有などの高品質なアフォーダンス サンプルを導き出すことで、私たちの方法と表現の有効性を実証します。
要約(オリジナル)
One of the major challenges in AI is teaching machines to precisely respond and utilize environmental functionalities, thereby achieving the affordance awareness that humans possess. Despite its importance, the field has been lagging in terms of learning, especially in 3D, as annotating affordance accompanies a laborious process due to the numerous variations of human-object interaction. The low availability of affordance data limits the learning in terms of generalization for object categories, and also simplifies the representation of affordance, capturing only a fraction of the affordance. To overcome these challenges, we propose a novel, self-supervised method to generate the 3D affordance examples given only a 3D object, without any manual annotations. The method starts by capturing the 3D object into images and creating 2D affordance images by inserting humans into the image via inpainting diffusion models, where we present the Adaptive Mask algorithm to enable human insertion without altering the original details of the object. The method consequently lifts inserted humans back to 3D to create 3D human-object pairs, where the depth ambiguity is resolved within a depth optimization framework that utilizes pre-generated human postures from multiple viewpoints. We also provide a novel affordance representation defined on relative orientations and proximity between dense human and object points, that can be easily aggregated from any 3D HOI datasets. The proposed representation serves as a primitive that can be manifested to conventional affordance representations via simple transformations, ranging from physically exerted affordances to nonphysical ones. We demonstrate the efficacy of our method and representation by generating the 3D affordance samples and deriving high-quality affordance examples from the representation, including contact, orientation, and spatial occupancies.
arxiv情報
著者 | Hyeonwoo Kim,Sookwan Han,Patrick Kwon,Hanbyul Joo |
発行日 | 2024-01-24 11:46:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google