LEMON: Learning 3D Human-Object Interaction Relation from 2D Images

要約

3D の人間とオブジェクトのインタラクション関係を学習することは、身体化された AI とインタラクション モデリングにとって極めて重要です。
既存の手法のほとんどは、人間との接触、オブジェクトのアフォーダンス、人間とオブジェクトの空間関係など、主に人間またはオブジェクトのどちらかの観点から、孤立したインタラクション要素を予測する方法を学習することで目標に近づきます。
これは、相互作用の対応者 (人間と物体) 間の特定の相関関係を悪用し、相互作用における不確実性に対処するのに苦労します。
実際、オブジェクトの機能は人間のインタラクションの意図に潜在的に影響を及ぼし、インタラクションが何であるかを明らかにします。
一方、相互作用する人間と物体は一致する幾何学的構造を示し、相互作用の方法を示します。
これを考慮して、我々は、相互作用の対応者間のこれらの固有の相関を利用して、不確実性を軽減し、3D 空間における上記の相互作用要素を共同で予測することを提案します。
これを達成するために、我々は、カウンターパートのインタラクション意図をマイニングし、曲率を使用して幾何学的相関関係の抽出をガイドし、それらを組み合わせてインタラクション要素を予測する統合モデルである LEMON (LEarning 3D huMan-Object iNteraction relationship) を提示します。
さらに、3D インタラクション リレーション データセット (3DIR) が収集され、トレーニングと評価のテスト ベッドとして機能します。
広範な実験により、各要素を個別に推定する方法よりも LEMON の優位性が実証されています。

要約(オリジナル)

Learning 3D human-object interaction relation is pivotal to embodied AI and interaction modeling. Most existing methods approach the goal by learning to predict isolated interaction elements, e.g., human contact, object affordance, and human-object spatial relation, primarily from the perspective of either the human or the object. Which underexploit certain correlations between the interaction counterparts (human and object), and struggle to address the uncertainty in interactions. Actually, objects’ functionalities potentially affect humans’ interaction intentions, which reveals what the interaction is. Meanwhile, the interacting humans and objects exhibit matching geometric structures, which presents how to interact. In light of this, we propose harnessing these inherent correlations between interaction counterparts to mitigate the uncertainty and jointly anticipate the above interaction elements in 3D space. To achieve this, we present LEMON (LEarning 3D huMan-Object iNteraction relation), a unified model that mines interaction intentions of the counterparts and employs curvatures to guide the extraction of geometric correlations, combining them to anticipate the interaction elements. Besides, the 3D Interaction Relation dataset (3DIR) is collected to serve as the test bed for training and evaluation. Extensive experiments demonstrate the superiority of LEMON over methods estimating each element in isolation.

arxiv情報

著者 Yuhang Yang,Wei Zhai,Hongchen Luo,Yang Cao,Zheng-Jun Zha
発行日 2024-03-31 02:18:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク