Visual Echoes: A Simple Unified Transformer for Audio-Visual Generation

要約

近年、現実的な生成結果と幅広いパーソナライズされたアプリケーションにより、拡散ベースの生成モデルはビジュアルとオーディオ生成の両方の分野で大きな注目を集めています。
text2image または text2audio 生成の大幅な進歩と比較して、audio2visual または Visual2audio 生成の研究は比較的遅れています。
最近のオーディオビジュアル生成方法は、通常、巨大な言語モデルまたは構成可能な拡散モデルに頼っています。
オーディオビジュアル生成用に別の巨大なモデルを設計する代わりに、この論文では一歩下がって、マルチモーダル生成では十分に研究されていないシンプルで軽量の生成トランスが image2audio 生成で優れた結果を達成できることを示します。
トランスフォーマーは、離散オーディオおよびビジュアルのベクトル量子化 GAN 空間で動作し、マスクノイズ除去方式でトレーニングされます。
トレーニング後は、追加のトレーニングや変更を行わなくても、分類器を使用しないガイダンスをすぐに導入して、より優れたパフォーマンスを達成できます。
トランスフォーマー モデルはモダリティ対称であるため、オーディオ 2 イメージの生成およびコジェネレーションに直接展開することもできます。
実験では、私たちの単純な方法が最近の image2audio 生成方法を超えることを示します。
生成された音声サンプルは、https://docs.google.com/presentation/d/1ZtC0SeblKkut4XJcRaDsSTuCRIXB3ypxmSi7HTY3IyQ/ でご覧いただけます。

要約(オリジナル)

In recent years, with the realistic generation results and a wide range of personalized applications, diffusion-based generative models gain huge attention in both visual and audio generation areas. Compared to the considerable advancements of text2image or text2audio generation, research in audio2visual or visual2audio generation has been relatively slow. The recent audio-visual generation methods usually resort to huge large language model or composable diffusion models. Instead of designing another giant model for audio-visual generation, in this paper we take a step back showing a simple and lightweight generative transformer, which is not fully investigated in multi-modal generation, can achieve excellent results on image2audio generation. The transformer operates in the discrete audio and visual Vector-Quantized GAN space, and is trained in the mask denoising manner. After training, the classifier-free guidance could be deployed off-the-shelf achieving better performance, without any extra training or modification. Since the transformer model is modality symmetrical, it could also be directly deployed for audio2image generation and co-generation. In the experiments, we show that our simple method surpasses recent image2audio generation methods. Generated audio samples can be found at https://docs.google.com/presentation/d/1ZtC0SeblKkut4XJcRaDsSTuCRIXB3ypxmSi7HTY3IyQ/

arxiv情報

著者 Shiqi Yang,Zhi Zhong,Mengjie Zhao,Shusuke Takahashi,Masato Ishii,Takashi Shibuya,Yuki Mitsufuji
発行日 2024-05-24 15:21:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS パーマリンク