Pose Priors from Language Models


我々は、人間の3Dポーズを推定する際に、正確な物理的接触制約を強制するゼロショットポーズ最適化手法を提示する。我々の中心的な洞察は、言語はしばしば身体的相互作用を記述するために使用されるため、事前に訓練された大規模なテキストベースのモデルが、ポーズ推定の事前予測として機能することができるということである。 従って、この洞察を活用して、大規模マルチモーダルモデル(LMM)によって生成された自然言語記述子を、3Dポーズ最適化を制約するための扱いやすい損失に変換することにより、ポーズ推定を改善することができる。本手法は単純であるにもかかわらず、密接に接触している人々の驚くほど説得力のあるポーズ再構成を生成し、社会的・物理的相互作用のセマンティクスを正しく捉える。本手法は、接触点の高価な人間によるアノテーションや特殊なモデルのトレーニングを必要とする、より複雑な最先端のアプローチに匹敵することを実証する。さらに、従来のアプローチとは異なり、我々の手法は、自己接触と個人間接触を解決するための統一されたフレームワークを提供する。


We present a zero-shot pose optimization method that enforces accurate physical contact constraints when estimating the 3D pose of humans. Our central insight is that since language is often used to describe physical interaction, large pretrained text-based models can act as priors on pose estimation. We can thus leverage this insight to improve pose estimation by converting natural language descriptors, generated by a large multimodal model (LMM), into tractable losses to constrain the 3D pose optimization. Despite its simplicity, our method produces surprisingly compelling pose reconstructions of people in close contact, correctly capturing the semantics of the social and physical interactions. We demonstrate that our method rivals more complex state-of-the-art approaches that require expensive human annotation of contact points and training specialized models. Moreover, unlike previous approaches, our method provides a unified framework for resolving self-contact and person-to-person contact.


著者 Sanjay Subramanian,Evonne Ng,Lea Müller,Dan Klein,Shiry Ginosar,Trevor Darrell
発行日 2024-05-06 17:59:36+00:00
カテゴリー: cs.CL, cs.CV