Sekai: A Video Dataset towards World Exploration

要約

ビデオ生成技術は驚くべき進歩を遂げており、インタラクティブな世界探査の基盤となることを約束しています。
ただし、既存のビデオ生成データセットは、限られた場所、短い期間、静的シーン、探査と世界に関する注釈の欠如など、いくつかの制限に悩まされているため、世界の探査トレーニングには適していません。
この論文では、世界の探検のための豊富な注釈を備えた高品質の一人称ビューワールドワイドビデオデータセットであるSekai(日本語で「世界」を意味する)を紹介します。
これは、750の都市の100を超える国と地域からの5,000時間以上のウォーキングまたはドローンビュー(FPVおよびUVA)ビデオで構成されています。
場所、シーン、天気、群衆の密度、キャプション、カメラの軌跡を収集、前処理、注釈を付けるための効率的で効果的なツールボックスを開発します。
実験は、データセットの品質を示しています。
また、サブセットを使用して、Yume(日本語で「Dream」を意味する)という名前のインタラクティブなビデオ世界探索モデルをトレーニングします。
Sekaiはビデオ生成と世界探査の分野に利益をもたらし、貴重なアプリケーションを動機付けると信じています。

要約(オリジナル)

Video generation techniques have made remarkable progress, promising to be the foundation of interactive world exploration. However, existing video generation datasets are not well-suited for world exploration training as they suffer from some limitations: limited locations, short duration, static scenes, and a lack of annotations about exploration and the world. In this paper, we introduce Sekai (meaning “world” in Japanese), a high-quality first-person view worldwide video dataset with rich annotations for world exploration. It consists of over 5,000 hours of walking or drone view (FPV and UVA) videos from over 100 countries and regions across 750 cities. We develop an efficient and effective toolbox to collect, pre-process and annotate videos with location, scene, weather, crowd density, captions, and camera trajectories. Experiments demonstrate the quality of the dataset. And, we use a subset to train an interactive video world exploration model, named YUME (meaning “dream” in Japanese). We believe Sekai will benefit the area of video generation and world exploration, and motivate valuable applications.

arxiv情報

著者 Zhen Li,Chuanhao Li,Xiaofeng Mao,Shaoheng Lin,Ming Li,Shitian Zhao,Zhaopan Xu,Xinyue Li,Yukang Feng,Jianwen Sun,Zizhen Li,Fanrui Zhang,Jiaxin Ai,Zhixiang Wang,Yuwei Wu,Tong He,Jiangmiao Pang,Yu Qiao,Yunde Jia,Kaipeng Zhang
発行日 2025-06-18 17:57:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク