要約
テキストからビデオへの生成モデルは目覚ましい進歩を遂げていますが、複雑な機能を備えたビデオを生成するのには依然として苦労しています。
この制限は、多くの場合、テキスト エンコーダーが正確な埋め込みを生成できないことが原因で発生し、ビデオ生成モデルの妨げとなります。
この研究では、埋め込み空間での補間を通じて最適なテキスト埋め込みを選択することで、この課題を克服する新しいアプローチを提案します。
この方法により、ビデオ生成モデルが目的のビデオを生成できることを示します。
さらに、最適な補間埋め込みを特定するために、垂直フット埋め込みとコサイン類似度を使用する単純なアルゴリズムを導入します。
私たちの調査結果は、正確なテキスト埋め込みの重要性を強調し、テキストからビデオへの生成パフォーマンスを向上させる道を提供します。
要約(オリジナル)
Text-to-video generation models have made impressive progress, but they still struggle with generating videos with complex features. This limitation often arises from the inability of the text encoder to produce accurate embeddings, which hinders the video generation model. In this work, we propose a novel approach to overcome this challenge by selecting the optimal text embedding through interpolation in the embedding space. We demonstrate that this method enables the video generation model to produce the desired videos. Additionally, we introduce a simple algorithm using perpendicular foot embeddings and cosine similarity to identify the optimal interpolation embedding. Our findings highlight the importance of accurate text embeddings and offer a pathway for improving text-to-video generation performance.
arxiv情報
著者 | Yuefan Cao,Chengyue Gong,Xiaoyu Li,Yingyu Liang,Zhizhou Sha,Zhenmei Shi,Zhao Song |
発行日 | 2025-01-17 06:46:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google