要約
与えられた自然言語クエリに基づいてビデオの瞬間をローカライズすることを目的とした Temporal Sentence Grounding (TSG) は、幅広い注目を集めています。
既存の作品は主に短いビデオ向けに設計されており、長いビデオでは TSG を処理できません。これにより 2 つの課題が生じます。i) 長いビデオの複雑なコンテキストには、より長い瞬間シーケンスに対する時間的推論が必要です。ii) 豊富な情報を含むテキスト音声を含む複数のモダリティには特殊な処理が必要です。
長いビデオの内容を理解するためのデザイン。
これらの課題に取り組むために、この研究では、LLM にマルチモーダル情報をプロンプトすることで、長いビデオで TSG を実行できるグラウンディング プロンプター法を提案します。
詳細には、まず TSG タスクとその音声や視覚を含むマルチモーダル入力を、圧縮されたタスクのテキスト化に変換します。
さらに、複雑な状況下での時間的推論を強化するために、境界知覚プロンプティング戦略が提案されており、これには 3 つの要素が含まれています: i) グローバルおよびローカルのセマンティクスとノイズ フィルター ステップを組み合わせる新しいマルチスケール ノイズ除去思考連鎖 (CoT) を設計します。
段階的に、ii) 特定の形式に従って合理的な予測を生成するように LLM を制約できる妥当性原則を設定します。iii) ワンショットの In-Context-Learning (ICL) を導入して模倣を通じて推論を強化し、TSG タスクの理解における LLM を強化します。
。
実験では、グラウンディング プロンプター法の最先端のパフォーマンスを実証し、長いビデオで TSG のマルチモーダル情報を LLM にプロンプトする利点を明らかにしました。
要約(オリジナル)
Temporal Sentence Grounding (TSG), which aims to localize moments from videos based on the given natural language queries, has attracted widespread attention. Existing works are mainly designed for short videos, failing to handle TSG in long videos, which poses two challenges: i) complicated contexts in long videos require temporal reasoning over longer moment sequences, and ii) multiple modalities including textual speech with rich information require special designs for content understanding in long videos. To tackle these challenges, in this work we propose a Grounding-Prompter method, which is capable of conducting TSG in long videos through prompting LLM with multimodal information. In detail, we first transform the TSG task and its multimodal inputs including speech and visual, into compressed task textualization. Furthermore, to enhance temporal reasoning under complicated contexts, a Boundary-Perceptive Prompting strategy is proposed, which contains three folds: i) we design a novel Multiscale Denoising Chain-of-Thought (CoT) to combine global and local semantics with noise filtering step by step, ii) we set up validity principles capable of constraining LLM to generate reasonable predictions following specific formats, and iii) we introduce one-shot In-Context-Learning (ICL) to boost reasoning through imitation, enhancing LLM in TSG task understanding. Experiments demonstrate the state-of-the-art performance of our Grounding-Prompter method, revealing the benefits of prompting LLM with multimodal information for TSG in long videos.
arxiv情報
著者 | Houlun Chen,Xin Wang,Hong Chen,Zihan Song,Jia Jia,Wenwu Zhu |
発行日 | 2023-12-28 16:54:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google