要約
この論文では、教育ビデオのビデオとテキストを時間的に位置合わせする問題を検討します。具体的には、長時間のビデオと関連するテキスト文が与えられた場合、私たちの目標は、ビデオ内のそれらに対応するタイムスタンプを決定することです。
この目的を達成するために、すべてのテキストをクエリとして使用し、視覚的な特徴を繰り返し考慮して最適なタイムスタンプを推測する、Transformer ベースのアーキテクチャを採用する、シンプルかつ強力なモデルを確立します。
当社は徹底的な実験を行って、(i) 音声認識によるエラーを減らすための ASR システムのアップグレードの効果、(ii) CLIP から S3D、さらに最近の InternVideo に至るまでのさまざまなビジュアルテキスト バックボーンの効果、(iii)
大規模言語モデル (LLM) を促し、ASR トランスクリプト内の中心的なアクティビティを新しいトレーニング データセットとして要約することで、ノイズの多い ASR トランスクリプトを記述的なステップに変換する効果。
その結果、私たちが提案した単純なモデルは、ナレーションの調整と手順のステップグラウンディングタスクの両方で優れたパフォーマンスを示し、3 つの公開ベンチマーク、つまり HT-Step で 9.3%、3.4 で既存の最先端の手法を大幅に上回りました。
HTM-Align では %、CrossTask では 4.7%。
私たちは、説明的なステップを備えた提案されたモデルとデータセットは、時間的なビデオとテキストの位置合わせにおける将来の研究のための強力なベースラインとして扱うことができると信じています。
すべてのコード、モデル、および結果として得られるデータセットは、研究コミュニティに公開されます。
要約(オリジナル)
In this paper, we consider the problem of temporally aligning the video and texts from instructional videos, specifically, given a long-term video, and associated text sentences, our goal is to determine their corresponding timestamps in the video. To this end, we establish a simple, yet strong model that adopts a Transformer-based architecture with all texts as queries, iteratively attending to the visual features, to infer the optimal timestamp. We conduct thorough experiments to investigate: (i) the effect of upgrading ASR systems to reduce errors from speech recognition, (ii) the effect of various visual-textual backbones, ranging from CLIP to S3D, to the more recent InternVideo, (iii) the effect of transforming noisy ASR transcripts into descriptive steps by prompting a large language model (LLM), to summarize the core activities within the ASR transcript as a new training dataset. As a result, our proposed simple model demonstrates superior performance on both narration alignment and procedural step grounding tasks, surpassing existing state-of-the-art methods by a significant margin on three public benchmarks, namely, 9.3% on HT-Step, 3.4% on HTM-Align and 4.7% on CrossTask. We believe the proposed model and dataset with descriptive steps can be treated as a strong baseline for future research in temporal video-text alignment. All codes, models, and the resulting dataset will be publicly released to the research community.
arxiv情報
著者 | Zeqian Li,Qirui Chen,Tengda Han,Ya Zhang,Yanfeng Wang,Weidi Xie |
発行日 | 2023-12-21 17:28:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google