ELMO: Enhanced Real-time LiDAR Motion Capture through Upsampling

要約

このペーパーでは、単一の LiDAR センサー用に設計されたリアルタイム アップサンプリング モーション キャプチャ フレームワークである ELMO を紹介します。
条件付き自己回帰トランスフォーマーベースのアップサンプリング モーション ジェネレーターとしてモデル化された ELMO は、20 fps の LiDAR 点群シーケンスから 60 fps のモーション キャプチャを実現します。
ELMO の主な特徴は、セルフ アテンション メカニズムと、モーションおよび点群用に慎重に設計された埋め込みモジュールを組み合わせて、モーションの品質を大幅に向上させることです。
正確なモーション キャプチャを容易にするために、単一フレームの点群からユーザーのスケルトン オフセットを予測できるワンタイム スケルトン キャリブレーション モデルを開発します。
さらに、LiDAR シミュレーターを利用した新しいデータ拡張手法を導入します。これにより、グローバルな根の追跡が強化され、環境への理解が向上します。
私たちの方法の有効性を実証するために、ELMO を画像ベースと点群ベースの両方のモーション キャプチャにおける最先端の方法と比較します。
さらに、設計原則を検証するためにアブレーション研究を実施します。
ELMO は推論時間が速いため、リアルタイム アプリケーションに適しています。これは、ライブ ストリーミングとインタラクティブ ゲーム シナリオを特集したデモ ビデオで実証されています。
さらに、さまざまな動作を実行する 20 人の異なる被験者で構成される高品質の LiDAR モーションキャプチャ同期データセットを提供します。これは、将来の研究のための貴重なリソースとして役立ちます。
データセットと評価コードは、{\blue \url{https://movin3d.github.io/ELMO_SIGASIA2024/}} で入手できます。

要約(オリジナル)

This paper introduces ELMO, a real-time upsampling motion capture framework designed for a single LiDAR sensor. Modeled as a conditional autoregressive transformer-based upsampling motion generator, ELMO achieves 60 fps motion capture from a 20 fps LiDAR point cloud sequence. The key feature of ELMO is the coupling of the self-attention mechanism with thoughtfully designed embedding modules for motion and point clouds, significantly elevating the motion quality. To facilitate accurate motion capture, we develop a one-time skeleton calibration model capable of predicting user skeleton offsets from a single-frame point cloud. Additionally, we introduce a novel data augmentation technique utilizing a LiDAR simulator, which enhances global root tracking to improve environmental understanding. To demonstrate the effectiveness of our method, we compare ELMO with state-of-the-art methods in both image-based and point cloud-based motion capture. We further conduct an ablation study to validate our design principles. ELMO’s fast inference time makes it well-suited for real-time applications, exemplified in our demo video featuring live streaming and interactive gaming scenarios. Furthermore, we contribute a high-quality LiDAR-mocap synchronized dataset comprising 20 different subjects performing a range of motions, which can serve as a valuable resource for future research. The dataset and evaluation code are available at {\blue \url{https://movin3d.github.io/ELMO_SIGASIA2024/}}

arxiv情報

著者 Deok-Kyeong Jang,Dongseok Yang,Deok-Yun Jang,Byeoli Choi,Donghoon Shin,Sung-hee Lee
発行日 2024-10-11 14:12:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG パーマリンク