PoseEmbroider: Towards a 3D, Visual, Semantic-aware Human Pose Representation

要約

画像やテキストなどの複数のモダリティを潜在空間に配置すると、強力な意味論的な視覚表現が生成され、画像のキャプション付け、テキストから画像への生成、画像のグラウンディングなどのタスクが促進されることがわかっています。
人間中心の視覚の文脈では、CLIP のような表現は、ほとんどの標準的な人間のポーズ (立っている、座っているなど) を比較的よくエンコードしていますが、詳細なポーズや珍しいポーズを識別するのに十分な鋭さに欠けています。
実際、3D 人間のポーズは、多くの場合、画像 (例: 姿勢推定や姿勢条件付き画像生成の実行) に関連付けられ、最近ではテキスト (例: テキストからポーズの生成) に関連付けられていますが、両方と組み合わせられることはほとんどありません。
この作業では、3D ポーズ、人物の写真、テキストによるポーズの説明を組み合わせて、強化された 3D、視覚、セマンティックを意識した人間のポーズ表現を作成します。
検索形式でトレーニングされた新しいトランスフォーマー ベースのモデルを導入します。これは、前述のモダリティの任意の組み合わせを入力として受け取ることができます。
モダリティを構成する際、標準的なマルチモーダル アライメント検索モデルよりも優れたパフォーマンスを発揮し、部分的な情報 (下半身が遮られた画像など) を分類することが可能になります。
このような刺繍によるポーズ表現の可能性を、(1) オプションのテキスト キューを使用した画像からの SMPL 回帰について紹介します。
(2) きめ細かい指示を生成するタスク。これは、(フィットネス コーチとして)ある 3D ポーズから別の 3D ポーズに移動する方法を説明するテキストを生成することから成ります。
以前の作品とは異なり、私たちのモデルは再トレーニングすることなくあらゆる種類の入力 (画像やポーズ) を受け取ることができます。

要約(オリジナル)

Aligning multiple modalities in a latent space, such as images and texts, has shown to produce powerful semantic visual representations, fueling tasks like image captioning, text-to-image generation, or image grounding. In the context of human-centric vision, albeit CLIP-like representations encode most standard human poses relatively well (such as standing or sitting), they lack sufficient acuteness to discern detailed or uncommon ones. Actually, while 3D human poses have been often associated with images (e.g. to perform pose estimation or pose-conditioned image generation), or more recently with text (e.g. for text-to-pose generation), they have seldom been paired with both. In this work, we combine 3D poses, person’s pictures and textual pose descriptions to produce an enhanced 3D-, visual- and semantic-aware human pose representation. We introduce a new transformer-based model, trained in a retrieval fashion, which can take as input any combination of the aforementioned modalities. When composing modalities, it outperforms a standard multi-modal alignment retrieval model, making it possible to sort out partial information (e.g. image with the lower body occluded). We showcase the potential of such an embroidered pose representation for (1) SMPL regression from image with optional text cue; and (2) on the task of fine-grained instruction generation, which consists in generating a text that describes how to move from one 3D pose to another (as a fitness coach). Unlike prior works, our model can take any kind of input (image and/or pose) without retraining.

arxiv情報

著者 Ginger Delmas,Philippe Weinzaepfel,Francesc Moreno-Noguer,Grégory Rogez
発行日 2024-09-10 14:09:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク