要約
テキストからビデオへの生成モデルは目覚ましい進歩を遂げているが、複雑な特徴を持つビデオの生成にはまだ苦労している。この限界は多くの場合、テキストエンコーダが正確な埋め込みを生成できないことに起因しており、これが動画生成モデルの妨げとなっている。本研究では、埋め込み空間の補間によって最適なテキスト埋め込みを選択することで、この課題を克服する新しいアプローチを提案する。この方法により、動画生成モデルが望ましい動画を生成できることを実証する。さらに、最適な補間埋め込みを特定するために、垂直足埋め込みと余弦類似度を用いた簡単なアルゴリズムを紹介する。我々の発見は、正確なテキスト埋込みの重要性を強調し、テキストから動画への生成性能を向上させる道筋を提供する。
要約(オリジナル)
Text-to-video generation models have made impressive progress, but they still struggle with generating videos with complex features. This limitation often arises from the inability of the text encoder to produce accurate embeddings, which hinders the video generation model. In this work, we propose a novel approach to overcome this challenge by selecting the optimal text embedding through interpolation in the embedding space. We demonstrate that this method enables the video generation model to produce the desired videos. Additionally, we introduce a simple algorithm using perpendicular foot embeddings and cosine similarity to identify the optimal interpolation embedding. Our findings highlight the importance of accurate text embeddings and offer a pathway for improving text-to-video generation performance.
arxiv情報
著者 | Yuefan Cao,Chengyue Gong,Xiaoyu Li,Yingyu Liang,Zhizhou Sha,Zhenmei Shi,Zhao Song |
発行日 | 2025-02-02 23:53:56+00:00 |
arxivサイト | arxiv_id(pdf) |