Motion Transformer for Unsupervised Image Animation

要約

イメージ アニメーションは、運転ビデオから学習したモーションを使用してソース イメージをアニメーション化することを目的としています。
現在の最先端の方法では、通常、畳み込みニューラル ネットワーク (CNN) を使用して、モーション キーポイントや対応するローカル変換などのモーション情報を予測します。
ただし、これらの CNN ベースの方法は、モーション間の相互作用を明示的にモデル化していません。
その結果、重要な基礎となるモーションの関係が無視される可能性があり、生成されたアニメーション ビデオで顕著なアーティファクトが生成される可能性があります。
この目的のために、ビジョントランスフォーマーに基づいてモーション推定器を構築する最初の試みであるモーショントランスフォーマーという新しい方法を提案します。
より具体的には、提案された方法で 2 種類のトークンを導入します。i) パッチ機能と対応する位置エンコーディングから形成される画像トークン。
および ii) モーション情報でエンコードされたモーション トークン。
両方のタイプのトークンがビジョン トランスフォーマーに送信され、マルチヘッド セルフ アテンション ブロックを通じてそれらの間の基本的な相互作用が促進されます。
このプロセスを採用することで、モーション情報をより適切に学習して、モデルのパフォーマンスを向上させることができます。
次に、最終的に埋め込まれたモーション トークンを使用して、対応するモーション キーポイントとローカル変換を予測します。
ベンチマーク データセットに関する広範な実験は、提案された方法が最先端のベースラインに対して有望な結果を達成することを示しています。
ソースコードは公開されます。

要約(オリジナル)

Image animation aims to animate a source image by using motion learned from a driving video. Current state-of-the-art methods typically use convolutional neural networks (CNNs) to predict motion information, such as motion keypoints and corresponding local transformations. However, these CNN based methods do not explicitly model the interactions between motions; as a result, the important underlying motion relationship may be neglected, which can potentially lead to noticeable artifacts being produced in the generated animation video. To this end, we propose a new method, the motion transformer, which is the first attempt to build a motion estimator based on a vision transformer. More specifically, we introduce two types of tokens in our proposed method: i) image tokens formed from patch features and corresponding position encoding; and ii) motion tokens encoded with motion information. Both types of tokens are sent into vision transformers to promote underlying interactions between them through multi-head self attention blocks. By adopting this process, the motion information can be better learned to boost the model performance. The final embedded motion tokens are then used to predict the corresponding motion keypoints and local transformations. Extensive experiments on benchmark datasets show that our proposed method achieves promising results to the state-of-the-art baselines. Our source code will be public available.

arxiv情報

著者 Jiale Tao,Biao Wang,Tiezheng Ge,Yuning Jiang,Wen Li,Lixin Duan
発行日 2022-09-28 12:04:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク