From Sora What We Can See: A Survey of Text-to-Video Generation

要約

目覚ましい成果を上げ、人工知能は汎用人工知能への道を歩み始めています。
OpenAI によって開発された Sora は、分単位の世界シミュレーション能力を備えており、この開発過程におけるマイルストーンと考えることができます。
しかし、目覚ましい成功にもかかわらず、ソラは依然として解決すべきさまざまな障害に遭遇しています。
この調査では、テキストからビデオへの生成において Sora を分解し、文献の包括的なレビューを実施するという観点から着手し、\textit{Sora から何が見えるのか} という質問に答えようとします。
具体的には、一般的なアルゴリズムに関する基本的な予備知識が導入された後、文献は、進化的ジェネレーター、優れた追跡、および現実的なパノラマという 3 つの相互に直交する次元から分類されます。
続いて、広く使用されているデータセットとメトリクスが詳細に整理されます。
最後になりますが、より重要なことは、この分野におけるいくつかの課題と未解決の問題を特定し、研究開発の潜在的な将来の方向性を提案することです。

要約(オリジナル)

With impressive achievements made, artificial intelligence is on the path forward to artificial general intelligence. Sora, developed by OpenAI, which is capable of minute-level world-simulative abilities can be considered as a milestone on this developmental path. However, despite its notable successes, Sora still encounters various obstacles that need to be resolved. In this survey, we embark from the perspective of disassembling Sora in text-to-video generation, and conducting a comprehensive review of literature, trying to answer the question, \textit{From Sora What We Can See}. Specifically, after basic preliminaries regarding the general algorithms are introduced, the literature is categorized from three mutually perpendicular dimensions: evolutionary generators, excellent pursuit, and realistic panorama. Subsequently, the widely used datasets and metrics are organized in detail. Last but more importantly, we identify several challenges and open problems in this domain and propose potential future directions for research and development.

arxiv情報

著者 Rui Sun,Yumin Zhang,Tejal Shah,Jiahao Sun,Shuoying Zhang,Wenqi Li,Haoran Duan,Bo Wei,Rajiv Ranjan
発行日 2024-05-17 10:09:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク