Pose Priors from Language Models

要約

言語は物理的な相互作用を説明するためによく使用されますが、ほとんどの3D人間のポーズ推定方法は、この豊富な情報源を見落としています。
接触ポーズを再構築するためのプライアーとして大きなマルチモーダルモデル(LMM)を活用することにより、このギャップを埋め、人間の注釈やモーションキャプチャデータに依存する従来の方法に代わるスケーラブルな代替品を提供します。
私たちのアプローチは、LMMから接触関連記述子を抽出し、それらを扱いやすい損失に変換して、3Dヒトのポーズ最適化を制約します。
その単純さにもかかわらず、私たちの方法は、2人の相互作用と自己接触シナリオの両方に魅力的な再構成を生み出し、身体的および社会的相互作用のセマンティクスを正確にキャプチャします。
我々の結果は、LMMが接触予測と推定の強力なツールとして役立つことを示しており、コストのかかる手動の人間の注釈またはモーションキャプチャデータに代わるものを提供します。
私たちのコードは、https://prosepose.github.ioで公開されています。

要約(オリジナル)

Language is often used to describe physical interaction, yet most 3D human pose estimation methods overlook this rich source of information. We bridge this gap by leveraging large multimodal models (LMMs) as priors for reconstructing contact poses, offering a scalable alternative to traditional methods that rely on human annotations or motion capture data. Our approach extracts contact-relevant descriptors from an LMM and translates them into tractable losses to constrain 3D human pose optimization. Despite its simplicity, our method produces compelling reconstructions for both two-person interactions and self-contact scenarios, accurately capturing the semantics of physical and social interactions. Our results demonstrate that LMMs can serve as powerful tools for contact prediction and pose estimation, offering an alternative to costly manual human annotations or motion capture data. Our code is publicly available at https://prosepose.github.io.

arxiv情報

著者 Sanjay Subramanian,Evonne Ng,Lea Müller,Dan Klein,Shiry Ginosar,Trevor Darrell
発行日 2025-05-15 14:35:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク