VR-based generation of photorealistic synthetic data for training hand-object tracking models


3D での手とオブジェクトのインタラクション (HOI) を正確に追跡するための教師あり学習モデルには、トレーニング用に大量の注釈付きデータが必要です。
さらに、専門家以外にとって、2D 画像上で 3D グラウンド トゥルース (例: 6DoF オブジェクトのポーズ) にラベルを付けることは直感的ではありません。
これらの問題に対処するために、Blender ソフトウェアに基づくインタラクティブな合成データ ジェネレーターである「blender-hoisynth」を紹介します。
Blender-hoisynth は、視覚的な HOI トレーニング データをスケーラブルに生成し、自動的に注釈を付けることができます。
他の競合するアプローチは通常、人間の入力をまったく必要とせずに合成 HOI データを生成します。
これは一部のシナリオでは有益かもしれませんが、HOI アプリケーションでは本質的に人間の意図の表現として HOI を直接制御する必要があります。
Blender-Hoisynth を使用すると、ユーザーは標準の仮想現実ハードウェアを使用して、仮想ハンドを介してオブジェクトと対話することができます。
合成的に生成されたデータは、高度なフォトリアリズムを特徴としており、手が物体を掴んで 3D で動かす様子を示す、視覚的にもっともらしく、物理的に現実的なビデオが含まれています。
データ生成の有効性を実証するために、よく知られている DexYCB データセットのトレーニング データの大部分を Hoisynth データに置き換え、それを使用して最先端の HOI 再構築モデルをトレーニングします。


Supervised learning models for precise tracking of hand-object interactions (HOI) in 3D require large amounts of annotated data for training. Moreover, it is not intuitive for non-experts to label 3D ground truth (e.g. 6DoF object pose) on 2D images. To address these issues, we present ‘blender-hoisynth’, an interactive synthetic data generator based on the Blender software. Blender-hoisynth can scalably generate and automatically annotate visual HOI training data. Other competing approaches usually generate synthetic HOI data compeletely without human input. While this may be beneficial in some scenarios, HOI applications inherently necessitate direct control over the HOIs as an expression of human intent. With blender-hoisynth, it is possible for users to interact with objects via virtual hands using standard Virtual Reality hardware. The synthetically generated data are characterized by a high degree of photorealism and contain visually plausible and physically realistic videos of hands grasping objects and moving them around in 3D. To demonstrate the efficacy of our data generation, we replace large parts of the training data in the well-known DexYCB dataset with hoisynth data and train a state-of-the-art HOI reconstruction model with it. We show that there is no significant degradation in the model performance despite the data replacement.


著者 Chengyan Zhang,Rahul Chaudhari
発行日 2024-01-31 14:32:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク