TIPS: Text-Induced Pose Synthesis

要約

コンピュータービジョンでは、人間のポーズ統合と転送は、その人のすでに利用可能な観察から、以前に見えなかったポーズの人の確率的イメージ生成との取引をします。
研究者は最近、このタスクを達成するためのいくつかの方法を提案しましたが、これらの手法のほとんどは、特定のデータセット上の目的のターゲット画像からターゲットポーズを直接導き出し、ターゲット画像の生成として現実世界のシナリオで適用することを困難にしています。
実際の目的です。
この論文では、最初に現在のポーズ転送アルゴリズムの欠点を提示し、次にこれらの問題に対処するための新しいテキストベースのポーズ転送手法を提案します。
問題を3つの独立した段階に分割します。(a)表現のポーズ、(b)洗練、(c)レンダリングのポーズ。
私たちの知る限り、これはテキストベースのポーズ転送フレームワークを開発する最初の試みの1つであり、Deepfashion Datasetの画像に記述的なポーズ注釈を追加することにより、新しいデータセットDFパスも導入します。
提案された方法は、実験で重要な定性的および定量的スコアを持つ有望な結果を生成します。

要約(オリジナル)

In computer vision, human pose synthesis and transfer deal with probabilistic image generation of a person in a previously unseen pose from an already available observation of that person. Though researchers have recently proposed several methods to achieve this task, most of these techniques derive the target pose directly from the desired target image on a specific dataset, making the underlying process challenging to apply in real-world scenarios as the generation of the target image is the actual aim. In this paper, we first present the shortcomings of current pose transfer algorithms and then propose a novel text-based pose transfer technique to address those issues. We divide the problem into three independent stages: (a) text to pose representation, (b) pose refinement, and (c) pose rendering. To the best of our knowledge, this is one of the first attempts to develop a text-based pose transfer framework where we also introduce a new dataset DF-PASS, by adding descriptive pose annotations for the images of the DeepFashion dataset. The proposed method generates promising results with significant qualitative and quantitative scores in our experiments.

arxiv情報

著者 Prasun Roy,Subhankar Ghosh,Saumik Bhattacharya,Umapada Pal,Michael Blumenstein
発行日 2025-02-18 17:28:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク