要約
タイトル: 映画のナラティブの概要:ストーリー理解のためのビデオ言語データセット
要約:
– AIの最近の進歩にもかかわらず、物語の理解は未解決であり、十分に調査されていない問題のままです。
– 人間の作成者によって作成され、人間の観客を想定した自然主義のストーリービデオを収集、前処理し、公開するビデオ-言語物語データセット、映画ナラティブの概要(SyMoN)が含まれています。合計869時間で、人気のある映画やテレビ番組の5,193のビデオ概要が含まれています。
– SyMoNは、プロトタイプと自然主義のストーリーデータセットとして、多様なモダリティのストーリーイベントの高いカバレッジと豊富な精神状態の説明を特徴としています。ストーリーテリング技術の使用により、既存のモデルに妥当な課題を提供するドメイン間の意味的なギャップが生じます。
– 映画概要ビデオにおけるビデオテキストリトリーバルとゼロショットアラインメントのベンチマークを設定し、ドメイン内データと長期的なメモリがストーリー理解において重要であることを示します。
– SyMoNを使用して、多様なモーダルストーリー理解の進展の基礎を築くことを期待しています。
要約(オリジナル)
Despite recent advances of AI, story understanding remains an open and under-investigated problem. We collect, preprocess, and publicly release a video-language story dataset, Synopses of Movie Narratives (SyMoN), containing 5,193 video summaries of popular movies and TV series with a total length of 869 hours. SyMoN captures naturalistic storytelling videos made by human creators and intended for a human audience. As a prototypical and naturalistic story dataset, SyMoN features high coverage of multimodal story events and abundant mental-state descriptions. Its use of storytelling techniques cause cross-domain semantic gaps that provide appropriate challenges to existing models. We establish benchmarks on video-text retrieval and zero-shot alignment on movie summary videos, which showcase the importance of in-domain data and long-term memory in story understanding. With SyMoN, we hope to lay the groundwork for progress in multimodal story understanding.
arxiv情報
著者 | Yidan Sun,Qin Chao,Yangfeng Ji,Boyang Li |
発行日 | 2023-04-05 02:09:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI