Real-Time Person Image Synthesis Using a Flow Matching Model

要約

ポーズガイド付きの人の画像合成(PGPI)は、ターゲットポーズとソース画像に条件付けられた現実的な人イメージを生成します。
このタスクは、手話ビデオ生成、AR/VR、ゲーム、ライブストリーミングなど、さまざまな現実世界のアプリケーションで重要な役割を果たします。
これらのシナリオでは、リアルタイムのPGPIは、即時の視覚的フィードバックを提供し、ユーザーの没入を維持するために重要です。しかし、リアルタイムのパフォーマンスを達成することは、多様で動的な人間のポーズからの高忠実度の画像を合成する複雑さのために依然として重要な課題です。
最近の拡散ベースの方法では、PGPIで印象的な画質が示されていますが、サンプリング速度が遅いため、時間に敏感なアプリケーションでの展開が妨げられます。
このレイテンシは、ライブブロードキャスト中に手話ビデオを生成するなどのタスクで特に問題があります。
したがって、高速で信頼性の高いPGPIモデルを開発することは、リアルタイムのインタラクティブシステムを有効にするための重要なステップです。
この課題に対処するために、フローマッチング(FM)に基づいて生成モデルを提案します。
私たちのアプローチにより、より速く、より安定した、より効率的なトレーニングとサンプリングが可能になります。
さらに、提案されたモデルは条件付き生成をサポートし、潜在空間で動作することができ、速度と品質の両方が重要なリアルタイムPGPIアプリケーションに特に適しています。
PGPISタスクに広く使用されているDeepFashionデータセットで、フローマッチングモデル(RPFM)を使用して、提案された方法であるリアルタイムの人の画像合成を評価します。
私たちの結果は、RPFMが最先端のモデルに匹敵するパフォーマンスを維持しながら、ほぼリアルタイムサンプリング速度を達成することを示しています。
私たちの方法論は、生成速度の2倍以上の増加に対して生成されたイメージの精度のわずかな許容可能な減少を交換し、それによりリアルタイムのパフォーマンスを確保します。

要約(オリジナル)

Pose-Guided Person Image Synthesis (PGPIS) generates realistic person images conditioned on a target pose and a source image. This task plays a key role in various real-world applications, such as sign language video generation, AR/VR, gaming, and live streaming. In these scenarios, real-time PGPIS is critical for providing immediate visual feedback and maintaining user immersion.However, achieving real-time performance remains a significant challenge due to the complexity of synthesizing high-fidelity images from diverse and dynamic human poses. Recent diffusion-based methods have shown impressive image quality in PGPIS, but their slow sampling speeds hinder deployment in time-sensitive applications. This latency is particularly problematic in tasks like generating sign language videos during live broadcasts, where rapid image updates are required. Therefore, developing a fast and reliable PGPIS model is a crucial step toward enabling real-time interactive systems. To address this challenge, we propose a generative model based on flow matching (FM). Our approach enables faster, more stable, and more efficient training and sampling. Furthermore, the proposed model supports conditional generation and can operate in latent space, making it especially suitable for real-time PGPIS applications where both speed and quality are critical. We evaluate our proposed method, Real-Time Person Image Synthesis Using a Flow Matching Model (RPFM), on the widely used DeepFashion dataset for PGPIS tasks. Our results show that RPFM achieves near-real-time sampling speeds while maintaining performance comparable to the state-of-the-art models. Our methodology trades off a slight, acceptable decrease in generated-image accuracy for over a twofold increase in generation speed, thereby ensuring real-time performance.

arxiv情報

著者 Jiwoo Jeong,Kirok Kim,Wooju Kim,Nam-Joon Kim
発行日 2025-05-06 14:13:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク