要約
自然言語は、画像キャプション、視覚的な質問応答、クロスモーダル検索など、多くのコンピューター ビジョン アプリケーションで重要な役割を果たし、きめ細かい意味情報を提供します。
残念ながら、人間のポーズは人間を理解する鍵ですが、現在の 3D 人間のポーズ データセットには詳細な言語記述がありません。
この問題に対処するために、PoseScript データセットを導入しました。
このデータセットは、AMASS からの 6,000 を超える 3D 人間のポーズと、身体の各部分とその空間的関係に関する人間による豊富な注釈付きの説明を組み合わせています。
さらに、データを大量に消費する学習アルゴリズムと互換性のあるスケールまでデータセットのサイズを増やすために、与えられた 3D キーポイントから自然言語で自動合成説明を生成する精巧なキャプション プロセスを提案しました。
このプロセスでは、3D キーポイントに関する単純だが一般的なルールのセットを使用して、「ポーズコード」として知られる低レベルのポーズ情報を抽出します。
これらのポーズコードは、構文規則を使用してより高いレベルのテキスト記述に結合されます。
自動アノテーションを使用すると、利用可能なデータの量が大幅に増加し (100k)、人間のキャプションを微調整するための深いモデルを効果的に事前トレーニングすることが可能になります。
注釈付きポーズの可能性を示すために、PoseScript データセットを利用する 3 つのマルチモーダル学習タスクを紹介します。
まず、3D ポーズとテキストによる説明を結合埋め込み空間にマッピングするパイプラインを開発し、大規模なデータセットから関連するポーズをクロスモーダルに取得できるようにします。
次に、3D ポーズを生成するテキスト条件付きモデルのベースラインを確立します。
第三に、ポーズ記述を生成するための学習されたプロセスを紹介します。
これらのアプリケーションは、さまざまなタスクにおける注釈付きポーズの多用途性と有用性を実証し、この分野での将来の研究への道を開きます。
要約(オリジナル)
Natural language plays a critical role in many computer vision applications, such as image captioning, visual question answering, and cross-modal retrieval, to provide fine-grained semantic information. Unfortunately, while human pose is key to human understanding, current 3D human pose datasets lack detailed language descriptions. To address this issue, we have introduced the PoseScript dataset. This dataset pairs more than six thousand 3D human poses from AMASS with rich human-annotated descriptions of the body parts and their spatial relationships. Additionally, to increase the size of the dataset to a scale that is compatible with data-hungry learning algorithms, we have proposed an elaborate captioning process that generates automatic synthetic descriptions in natural language from given 3D keypoints. This process extracts low-level pose information, known as ‘posecodes’, using a set of simple but generic rules on the 3D keypoints. These posecodes are then combined into higher level textual descriptions using syntactic rules. With automatic annotations, the amount of available data significantly scales up (100k), making it possible to effectively pretrain deep models for finetuning on human captions. To showcase the potential of annotated poses, we present three multi-modal learning tasks that utilize the PoseScript dataset. Firstly, we develop a pipeline that maps 3D poses and textual descriptions into a joint embedding space, allowing for cross-modal retrieval of relevant poses from large-scale datasets. Secondly, we establish a baseline for a text-conditioned model generating 3D poses. Thirdly, we present a learned process for generating pose descriptions. These applications demonstrate the versatility and usefulness of annotated poses in various tasks and pave the way for future research in the field.
arxiv情報
著者 | Ginger Delmas,Philippe Weinzaepfel,Thomas Lucas,Francesc Moreno-Noguer,Grégory Rogez |
発行日 | 2024-09-10 13:19:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google