3D Whole-body Grasp Synthesis with Directional Controllability

要約

物体をリアルに把握する 3D 全身の合成は、アニメーション、複合現実、ロボット工学に役立ちます。
手と体は全体的に自然に見える必要があるため、これは困難です。
相互、掴んだ物体、およびローカルシーン (つまり、物体を支持する容器)。
分割統治のアプローチでこれに取り組んでいるのは最近の研究だけです。
まず「誘導」右手の握りを生成し、次にこれに一致するボディを検索します。
ただし、ガイドハンドの合成には制御性とレセプタクルの認識が欠けているため、おそらくありえない方向性があり(つまり、ボディがレセプタクルを貫通しないとこれに一致できない)、大規模な後処理による修正が必要になります。
さらに、身体検査には徹底的なサンプリングが必要であり、費用がかかります。
これらは強力な制限です。
私たちは、CWGrasp と呼ばれる新しい方法でこれらに取り組みます。
私たちの重要なアイデアは、幾何学ベースの推論を「遅すぎる」のではなく「早い段階で」実行することで、推論のための豊富な「制御」信号が提供されるということです。
この目的を達成するために、CWGrasp はまず、オブジェクトからのレイキャストと衝突チェックによって構築された確率モデルから、妥当な到達方向ベクトル (後で腕と手の両方に使用されます) をサンプリングします。
そして、所望の腕の方向を持ったリーチボディと、腕の方向に合わせた所望の手のひらの方向を持った「誘導」の掴み手を生成します。
最終的に、CWGrasp は、シーンにもっともらしく接触しながら、「導く」手に適合するようにボディを改良します。
特に、すでに互換性のある「部分」を生成すると、「全体」が大幅に簡素化されます。
さらに、CWGrasp は右手と左手の両方の握りに独自に取り組みます。
GRAB および ReplicaGrasp データセットで評価します。
CWGrasp は、すべてのコンポーネントがパフォーマンスを向上させながら、より低い実行時間と予算でベースラインを上回るパフォーマンスを発揮します。
コードとモデルは公開されます。

要約(オリジナル)

Synthesizing 3D whole-bodies that realistically grasp objects is useful for animation, mixed reality, and robotics. This is challenging, because the hands and body need to look natural w.r.t. each other, the grasped object, as well as the local scene (i.e., a receptacle supporting the object). Only recent work tackles this, with a divide-and-conquer approach; it first generates a ‘guiding’ right-hand grasp, and then searches for bodies that match this. However, the guiding-hand synthesis lacks controllability and receptacle awareness, so it likely has an implausible direction (i.e., a body can’t match this without penetrating the receptacle) and needs corrections through major post-processing. Moreover, the body search needs exhaustive sampling and is expensive. These are strong limitations. We tackle these with a novel method called CWGrasp. Our key idea is that performing geometry-based reasoning ‘early on,’ instead of ‘too late,’ provides rich ‘control’ signals for inference. To this end, CWGrasp first samples a plausible reaching-direction vector (used later for both the arm and hand) from a probabilistic model built via raycasting from the object and collision checking. Then, it generates a reaching body with a desired arm direction, as well as a ‘guiding’ grasping hand with a desired palm direction that complies with the arm’s one. Eventually, CWGrasp refines the body to match the ‘guiding’ hand, while plausibly contacting the scene. Notably, generating already-compatible ‘parts’ greatly simplifies the ‘whole.’ Moreover, CWGrasp uniquely tackles both right- and left-hand grasps. We evaluate on the GRAB and ReplicaGrasp datasets. CWGrasp outperforms baselines, at lower runtime and budget, while all components help performance. Code and models will be released.

arxiv情報

著者 Georgios Paschalidis,Romana Wilschut,Dimitrije Antić,Omid Taheri,Dimitrios Tzionas
発行日 2024-08-29 17:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク