What You Say Is What You Show: Visual Narration Detection in Instructional Videos

要約

ナレーション付きの「ハウツー」ビデオは、視覚表現の学習からロボットポリシーの訓練まで、幅広い学習問題に対する有望なデータソースとして浮上している。しかし、このデータはナレーションが必ずしもビデオで実演された動作を説明しているとは限らないため、非常にノイズが多い。この問題に対処するため、我々は視覚的ナレーション検出という新しいタスクを導入する。これは、ナレーションが映像中の行動によって視覚的に描写されているかどうかを判断することを伴う。我々は、マルチモーダルキューと擬似ラベリングを活用し、弱いラベル付けデータのみで視覚的ナレーションを検出することを学習する手法である「What You Say is What You Show」(WYS^2)を提案する。さらに、この手法を一般化して音声入力のみを対象とし、ナレーターの声の特性を学習することで、ナレーターが現在何をしているかを示唆する。また、このモデルが教育用ビデオの要約と位置合わせに有効であることを実証する。

要約(オリジナル)

Narrated ‘how-to’ videos have emerged as a promising data source for a wide range of learning problems, from learning visual representations to training robot policies. However, this data is extremely noisy, as the narrations do not always describe the actions demonstrated in the video. To address this problem we introduce the novel task of visual narration detection, which entails determining whether a narration is visually depicted by the actions in the video. We propose ‘What You Say is What You Show’ (WYS^2), a method that leverages multi-modal cues and pseudo-labeling to learn to detect visual narrations with only weakly labeled data. We further generalize our approach to operate on only audio input, learning properties of the narrator’s voice that hint if they are currently doing what they describe. Our model successfully detects visual narrations in in-the-wild videos, outperforming strong baselines, and we demonstrate its impact for state-of-the-art summarization and alignment of instructional video.

arxiv情報

著者 Kumar Ashutosh,Rohit Girdhar,Lorenzo Torresani,Kristen Grauman
発行日 2023-01-05 21:43:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク