HUNTER: Unsupervised Human-centric 3D Detection via Transferring Knowledge from Synthetic Instances to Real Scenes

要約

人間中心の 3D シーンの理解は、ロボット工学への重大な影響により、最近ますます注目を集めています。
しかし、人間を中心とした現実のシナリオは非常に多様かつ複雑であり、人間の動きや相互作用は複雑です。
ラベル付きデータが限られているため、教師ありメソッドを一般的なシナリオに一般化することが難しく、実際のアプリケーションの妨げとなります。
人間の知能を模倣し、合成人間インスタンスから実際のシーンに知識を転送することにより、人間中心のシナリオ向けの教師なし 3D 検出方法を提案します。
合成モデルと実際の点群の個別のデータ表現と特徴分布の間のギャップを埋めるために、インスタンスからシーンへの表現の効果的な転送と合成から現実の特徴への調整のための新しいモジュールを導入します。
注目すべきことに、私たちの手法は現在の最先端技術と比較して優れたパフォーマンスを示し、mAP で 87.8% の改善を達成し、HuCenLife データセット上の完全に監視されたメソッドのパフォーマンス (62.15 mAP 対 69.02 mAP) にほぼ近づいています。

要約(オリジナル)

Human-centric 3D scene understanding has recently drawn increasing attention, driven by its critical impact on robotics. However, human-centric real-life scenarios are extremely diverse and complicated, and humans have intricate motions and interactions. With limited labeled data, supervised methods are difficult to generalize to general scenarios, hindering real-life applications. Mimicking human intelligence, we propose an unsupervised 3D detection method for human-centric scenarios by transferring the knowledge from synthetic human instances to real scenes. To bridge the gap between the distinct data representations and feature distributions of synthetic models and real point clouds, we introduce novel modules for effective instance-to-scene representation transfer and synthetic-to-real feature alignment. Remarkably, our method exhibits superior performance compared to current state-of-the-art techniques, achieving 87.8% improvement in mAP and closely approaching the performance of fully supervised methods (62.15 mAP vs. 69.02 mAP) on HuCenLife Dataset.

arxiv情報

著者 Yichen Yao,Zimo Jiang,Yujing Sun,Zhencai Zhu,Xinge Zhu,Runnan Chen,Yuexin Ma
発行日 2024-03-15 15:46:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク