Synopses of Movie Narratives: a Video-Language Dataset for Story Understanding



– AIの最近の進歩にもかかわらず、ストーリー理解は未解決かつ未調査の課題のままです。
– 私たちは、5,193本の人気映画やテレビシリーズの要約ビデオを収集し、前処理し、公開するビデオ-言語ストーリーデータセット「Synopses of Movie Narratives (SYMON)」を作成しました。
– SYMONは、人間が作成した自然なストーリーテリングビデオを捉え、プロトタイプで自然なストーリーデータセットとして、多様なモーダルストーリーイベントの高いカバレッジ、豊富な精神状態の記述、視覚とテキストモーダリティ間の大きな意味的ギャップを備えています。
– 映画要約ビデオにおけるビデオ-テキスト検索とゼロショットアライメントのベンチマークを設定し、ストーリー理解におけるドメイン内データの重要性を示します。
– SYMONを通じて、多モーダルストーリー理解の進歩の礎を築くことを望んでいます。


Despite recent advances of AI, story understanding remains an open and under-investigated problem. We collect, preprocess, and publicly release a video-language story dataset, Synopses of Movie Narratives (SYMON), containing 5,193 video summaries of popular movies and TV series. SYMON captures naturalistic story-telling videos for human audience made by human creators. As a prototypical and naturalistic story dataset, SYMON features high coverage of multimodal story events, abundant mental-state descriptions, and large semantic gaps between the visual and the textual modalities. We establish benchmarks on video-text retrieval and zero-shot alignment on movie summary videos, which showcase the importance of in-domain data in story understanding. With SYMON, we hope to lay the groundwork for progress in multimodal story understanding.


著者 Yidan Sun,Qin Chao,Yangfeng Ji,Boyang Li
発行日 2023-04-04 16:27:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク