要約
我々は今回初めて、歩容の移行の問題に取り組んだ。モーション・トランスファーとは対照的に、ここでの目的は、ソースの通常の動きを模倣することではなく、ソースの動きをターゲットの典型的な歩行パターンに変換することである。我々は、歩行認識モデルを用いて、既存の手法では容易に検出可能な不一致が生じることを実証する。我々は、ターゲットの自然な歩行をうまく生成できる新しいモデル、Cycle Transformers GAN (CTrGAN)を紹介する。CTrGANの生成器はデコーダとエンコーダからなり、どちらもTransformerであり、パッチ間の空間領域ではなく、完全な画像間の時間領域に注意が向けられている。コンピュータビジョンにおける最近のトランスフォーマーの研究は、主に識別タスクに焦点を当てているが、我々は合成タスクに適用可能なアーキテクチャを導入する。広く使われている歩行認識データセットを用いて、我々のアプローチが、学習中に利用できなかったソースを用いた場合でも、既存の手法よりも1桁以上リアルなパーソナライズされた歩行を生成できることを実証する。
要約(オリジナル)
We attempt for the first time to address the problem of gait transfer. In contrast to motion transfer, the objective here is not to imitate the source’s normal motions, but rather to transform the source’s motion into a typical gait pattern for the target. Using gait recognition models, we demonstrate that existing techniques yield a discrepancy that can be easily detected. We introduce a novel model, Cycle Transformers GAN (CTrGAN), that can successfully generate the target’s natural gait. CTrGAN’s generators consist of a decoder and encoder, both Transformers, where the attention is on the temporal domain between complete images rather than the spatial domain between patches. While recent Transformer studies in computer vision mainly focused on discriminative tasks, we introduce an architecture that can be applied to synthesis tasks. Using a widely-used gait recognition dataset, we demonstrate that our approach is capable of producing over an order of magnitude more realistic personalized gaits than existing methods, even when used with sources that were not available during training.
arxiv情報
著者 | Shahar Mahpod,Noam Gaash,G. Ben-Artzi |
発行日 | 2022-07-01 05:43:23+00:00 |
arxivサイト | arxiv_id(pdf) |