PoseGPT: Chatting about 3D Human Pose

要約

PoseGPT は、画像やテキストの説明から 3D 人間のポーズを理解して推論するための大規模言語モデル (LLM) を使用するフレームワークです。
私たちの仕事は、単一の画像や簡単な説明から姿勢を直観的に理解する人間の能力、画像の解釈、世界の知識、ボディーランゲージの理解が絡み合ったプロセスによって動機づけられています。
従来の人間の姿勢推定方法は、画像ベースであろうとテキストベースであろうと、多くの場合、全体的なシーンの理解や微妙な推論に欠けており、視覚データとその現実世界の意味との間に乖離が生じます。
PoseGPT は、SMPL ポーズをマルチモーダル LLM 内に個別の信号トークンとして埋め込むことでこれらの制限に対処し、テキスト入力とビジュアル入力の両方から 3D ボディ ポーズを直接生成できるようにします。
このアプローチは、ポーズ予測を簡素化するだけでなく、LLM が人間のポーズに関する推論に世界の知識を適用できるようにし、推測的なポーズ生成とポーズ推定に関する推論という 2 つの高度なタスクを促進します。
これらのタスクには、人間が画像を伴う微妙なテキスト クエリから 3D ポーズを生成する推論が含まれます。
私たちは、従来の 3D ポーズ生成および推定方法を超えて、これらのタスクのベンチマークを確立します。
私たちの結果は、これらの新しく提案されたタスクにおいて、PoseGPT が既存のマルチモーダル LLM およびタスク固有の手法よりも優れたパフォーマンスを発揮することを示しています。
さらに、複雑な推論に基づいて 3D 人間のポーズを理解して生成する PoseGPT の機能は、人間のポーズ分析に新しい方向性を開きます。

要約(オリジナル)

We introduce PoseGPT, a framework employing Large Language Models (LLMs) to understand and reason about 3D human poses from images or textual descriptions. Our work is motivated by the human ability to intuitively understand postures from a single image or a brief description, a process that intertwines image interpretation, world knowledge, and an understanding of body language. Traditional human pose estimation methods, whether image-based or text-based, often lack holistic scene comprehension and nuanced reasoning, leading to a disconnect between visual data and its real-world implications. PoseGPT addresses these limitations by embedding SMPL poses as a distinct signal token within a multi-modal LLM, enabling direct generation of 3D body poses from both textual and visual inputs. This approach not only simplifies pose prediction but also empowers LLMs to apply their world knowledge in reasoning about human poses, fostering two advanced tasks: speculative pose generation and reasoning about pose estimation. These tasks involve reasoning about humans to generate 3D poses from subtle text queries, possibly accompanied by images. We establish benchmarks for these tasks, moving beyond traditional 3D pose generation and estimation methods. Our results show that PoseGPT outperforms existing multimodal LLMs and task-sepcific methods on these newly proposed tasks. Furthermore, PoseGPT’s ability to understand and generate 3D human poses based on complex reasoning opens new directions in human pose analysis.

arxiv情報

著者 Yao Feng,Jing Lin,Sai Kumar Dwivedi,Yu Sun,Priyanka Patel,Michael J. Black
発行日 2023-11-30 18:59:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク