要約
タイトル – 映画の物語の概要:ストーリー理解のためのビデオ言語データセット
要約 – 近年のAIの進歩にもかかわらず、ストーリー理解は未解決で未調査の問題のままです。我々は、人気のある映画やテレビシリーズの5,193のビデオ要約を含む、ビデオ言語ストーリーデータセット「映画の物語の概要(SYMON)」を収集し、前処理して公開します。SYMONは、人間のクリエイターによって作られた人間の観客向けの自然主義的なストーリーテリングビデオをキャプチャします。SYMONは、プロトタイプとして自然主義的なストーリーデータセットであり、マルチモーダルストーリーイベントの高いカバレッジ、豊富なメンタルステートの記述、および視覚とテキストのモダリティの間の大きな意味的ギャップを特徴としています。我々は、映画の概要ビデオにおけるビデオ-テキスト検索とゼロショットアラインメントのベンチマークを確立し、ストーリー理解におけるドメイン内データの重要性を示しています。SYMONを使って、マルチモーダルストーリー理解の進歩のための基礎を築くことを願っています。
– AIによるストーリー理解は未解決で未調査の問題のままです
– 人気のある映画やテレビシリーズの5,193のビデオ要約を含む、ビデオ言語ストーリーデータセット「SYMON」を収集、前処理、公開
– SYMONは、自然主義的なストーリーテリングビデオをキャプチャしており、マルチモーダルストーリーイベントの高いカバレッジ、豊富なメンタルステートの記述、視覚とテキストのモダリティの間の大きな意味的ギャップを特徴としている
– ビデオ-テキスト検索とゼロショットアラインメントのベンチマークを「SYMON」で確立して、ストーリー理解におけるドメイン内データの重要性を示す
– 「SYMON」を利用して、マルチモーダルストーリー理解の進歩のために基礎を築くことを期待している
要約(オリジナル)
Despite recent advances of AI, story understanding remains an open and under-investigated problem. We collect, preprocess, and publicly release a video-language story dataset, Synopses of Movie Narratives (SYMON), containing 5,193 video summaries of popular movies and TV series. SYMON captures naturalistic story-telling videos for human audience made by human creators. As a prototypical and naturalistic story dataset, SYMON features high coverage of multimodal story events, abundant mental-state descriptions, and large semantic gaps between the visual and the textual modalities. We establish benchmarks on video-text retrieval and zero-shot alignment on movie summary videos, which showcase the importance of in-domain data in story understanding. With SYMON, we hope to lay the groundwork for progress in multimodal story understanding.
arxiv情報
| 著者 | Yidan Sun,Qin Chao,Yangfeng Ji,Boyang Li |
| 発行日 | 2023-04-03 03:52:14+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI