要約
我々は、人間の衣服のアニメーションから構成されるシネマグラフを生成する拡散モデルベースのアプローチである FloAtControlNet を提案します。
私たちはドレス、スカート、パンツなどの人間の衣服に焦点を当てています。
モデルへの入力は、ヒョウ、ストライプ、無地などの衣服の種類とテクスチャを表すテキスト プロンプトと、出力に必要な基礎となるアニメーションをキャプチャする一連の法線マップです。
私たちのメソッドのバックボーンは、トレーニング不要の体制で動作する法線マップ条件付き ControlNet です。
重要な観察は、基礎となるアニメーションが法線マップのフローに埋め込まれていることです。
このようにして得られたフローを利用して、適切なレイヤーのセルフ アテンション マップを操作します。
具体的には、特定のレイヤーとフレームのセルフ アテンション マップは、それ自体と、同じレイヤーと前のフレームのセルフ アテンション マップの線形結合として再計算され、2 つのフレームの法線マップ上のフローによってワープされます。
セルフ アテンション マップを操作すると、衣服のアニメーションの品質が大幅に向上し、より自然に見えるだけでなく、背景のアーティファクトも抑制されることを示します。
広範な実験を通じて、提案された方法が視覚的な結果とユーザー調査の両方で定性的にすべてのベースラインを上回っていることを示しています。
具体的には、私たちの方法は、私たちが検討している他の拡散モデルベースのベースラインに存在する背景のちらつきを軽減することができます。
さらに、入力法線マップ シーケンスと出力 RGB フレームから取得した法線マップ シーケンスを使用して計算された RMSE と PSNR の点で、私たちの方法がすべてのベースラインを上回っていることを示します。
さらに、LPIPS、SSIM、CLIP スコアなど、一般に視覚的な品質を目的とした確立された評価指標が、人間の衣服アニメーションの微妙な動きを捉えるのには必ずしも適していないことを示します。
要約(オリジナル)
We propose a diffusion model-based approach, FloAtControlNet to generate cinemagraphs composed of animations of human clothing. We focus on human clothing like dresses, skirts and pants. The input to our model is a text prompt depicting the type of clothing and the texture of clothing like leopard, striped, or plain, and a sequence of normal maps that capture the underlying animation that we desire in the output. The backbone of our method is a normal-map conditioned ControlNet which is operated in a training-free regime. The key observation is that the underlying animation is embedded in the flow of the normal maps. We utilize the flow thus obtained to manipulate the self-attention maps of appropriate layers. Specifically, the self-attention maps of a particular layer and frame are recomputed as a linear combination of itself and the self-attention maps of the same layer and the previous frame, warped by the flow on the normal maps of the two frames. We show that manipulating the self-attention maps greatly enhances the quality of the clothing animation, making it look more natural as well as suppressing the background artifacts. Through extensive experiments, we show that the method proposed beats all baselines both qualitatively in terms of visual results and user study. Specifically, our method is able to alleviate the background flickering that exists in other diffusion model-based baselines that we consider. In addition, we show that our method beats all baselines in terms of RMSE and PSNR computed using the input normal map sequences and the normal map sequences obtained from the output RGB frames. Further, we show that well-established evaluation metrics like LPIPS, SSIM, and CLIP scores that are generally for visual quality are not necessarily suitable for capturing the subtle motions in human clothing animations.
arxiv情報
著者 | Swasti Shreya Mishra,Kuldeep Kulkarni,Duygu Ceylan,Balaji Vasan Srinivasan |
発行日 | 2024-11-22 15:59:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google