要約
ビデオにおける時間的文のグラウンディング (TSGV)、別名自然言語ビデオ ローカリゼーション (NLVL) またはビデオ モーメント検索 (VMR) は、トリミングされていないビデオから言語クエリに意味的に対応する時間的瞬間を取得することを目的としています。
コンピューター ビジョンと自然言語を結び付ける TSGV は、両方のコミュニティの研究者から大きな注目を集めています。
この調査は、TSGV の基本的な概念と現在の研究状況、および将来の研究の方向性をまとめたものです。
背景として、TSGV の機能コンポーネントの一般的な構造をチュートリアル形式で提示します。未加工のビデオと言語クエリからの特徴抽出から、ターゲット モーメントの予測への回答までです。
次に、2 つのモダリティ間の効果的な調整のための TSGV の重要な焦点である、マルチモーダルな理解と相互作用のための手法を確認します。
TSGV 手法の分類法を構築し、さまざまなカテゴリの手法を長所と短所とともに詳しく説明します。
最後に、現在の TSGV 研究に関する問題について議論し、有望な研究の方向性についての洞察を共有します。
要約(オリジナル)
Temporal sentence grounding in videos (TSGV), \aka natural language video localization (NLVL) or video moment retrieval (VMR), aims to retrieve a temporal moment that semantically corresponds to a language query from an untrimmed video. Connecting computer vision and natural language, TSGV has drawn significant attention from researchers in both communities. This survey attempts to provide a summary of fundamental concepts in TSGV and current research status, as well as future research directions. As the background, we present a common structure of functional components in TSGV, in a tutorial style: from feature extraction from raw video and language query, to answer prediction of the target moment. Then we review the techniques for multimodal understanding and interaction, which is the key focus of TSGV for effective alignment between the two modalities. We construct a taxonomy of TSGV techniques and elaborate the methods in different categories with their strengths and weaknesses. Lastly, we discuss issues with the current TSGV research and share our insights about promising research directions.
arxiv情報
著者 | Hao Zhang,Aixin Sun,Wei Jing,Joey Tianyi Zhou |
発行日 | 2022-10-28 14:51:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google