MADiff: Motion-Aware Mamba Diffusion Models for Hand Trajectory Prediction on Egocentric Videos

要約

自己中心的なビデオを通じて人間の意図と行動を理解することは、身体化された人工知能への道において重要です。
自己中心的な視覚技術の一分野として、手の軌道予測は人間の動作パターンを理解する上で重要な役割を果たし、拡張現実やロボット操作における下流のタスクに利益をもたらします。
ただし、自己中心的なビデオしか利用できない場合、合理的な時間的因果関係と一致する高レベルの人間の意図を捕捉することは困難です。
この困難は、カメラのエゴモーション干渉と、手のウェイポイント分布の最適化を明示的にガイドするアフォーダンス ラベルの欠如の下でさらに悪化します。
この研究では、拡散モデルを使用して将来のハンドウェイポイントを予測する、MADiff と呼ばれる新しいハンド軌道予測方法を提案します。
潜在空間における工夫されたノイズ除去操作は、私たちが提案する動き認識型 Mamba によって実現され、カメラ装着者のエゴモーションが統合されて動き駆動型選択スキャン (MDSS) が実現されます。
明示的なアフォーダンス監視なしで手とシナリオの関係を識別するために、視覚機能と言語機能を融合する基盤モデルを活用して、ビデオ クリップから高レベルのセマンティクスをキャプチャします。
既存の評価指標と私たちが提案する新しい評価指標を使用して 5 つの公開データセットに対して行われた包括的な実験により、MADiff が最先端のベースラインと比較して比較的合理的な手の軌道を予測し、リアルタイムのパフォーマンスを達成できることが実証されました。
MADiff のコードと事前トレーニング済みモデルをプロジェクト ページ (https://irmvlab.github.io/madiff.github.io) でリリースします。

要約(オリジナル)

Understanding human intentions and actions through egocentric videos is important on the path to embodied artificial intelligence. As a branch of egocentric vision techniques, hand trajectory prediction plays a vital role in comprehending human motion patterns, benefiting downstream tasks in extended reality and robot manipulation. However, capturing high-level human intentions consistent with reasonable temporal causality is challenging when only egocentric videos are available. This difficulty is exacerbated under camera egomotion interference and the absence of affordance labels to explicitly guide the optimization of hand waypoint distribution. In this work, we propose a novel hand trajectory prediction method dubbed MADiff, which forecasts future hand waypoints with diffusion models. The devised denoising operation in the latent space is achieved by our proposed motion-aware Mamba, where the camera wearer’s egomotion is integrated to achieve motion-driven selective scan (MDSS). To discern the relationship between hands and scenarios without explicit affordance supervision, we leverage a foundation model that fuses visual and language features to capture high-level semantics from video clips. Comprehensive experiments conducted on five public datasets with the existing and our proposed new evaluation metrics demonstrate that MADiff predicts comparably reasonable hand trajectories compared to the state-of-the-art baselines, and achieves real-time performance. We will release our code and pretrained models of MADiff at the project page: https://irmvlab.github.io/madiff.github.io.

arxiv情報

著者 Junyi Ma,Xieyuanli Chen,Wentao Bao,Jingyi Xu,Hesheng Wang
発行日 2024-09-04 12:06:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク