Unifying Event Detection and Captioning as Sequence Generation via Pre-Training

要約

高密度ビデオキャプションは、トリミングされていないビデオの一連のイベントに対応するテキストの説明を生成することを目的としています。これは、イベント検出とイベントキャプションの2つのサブタスクに分割できます。
2つのサブタスクに別々に取り組む以前の作品とは異なり、最近の作品は2つのサブタスク間のタスク間の関連付けを強化することに焦点を当てています。
ただし、タスク固有のソリューションには大きな違いがあるため、イベント検出とキャプションのためのタスク間インタラクションの設計は簡単ではありません。
さらに、以前のイベント検出方法は通常、イベント間の時間的な依存関係を無視するため、イベントの冗長性や不整合の問題が発生します。
上記の2つの欠陥に取り組むために、このペーパーでは、イベント検出をシーケンス生成タスクとして定義し、イベント検出とキャプションの間のタスク間関連付けを自然に強化するための統合された事前トレーニングおよび微調整フレームワークを提案します。
モデルは前のイベントをコンテキストとして各イベントを予測するため、イベント間の相互依存性が十分に活用され、モデルはビデオ内のより多様で一貫性のあるイベントを検出できます。
ActivityNetデータセットでの実験は、私たちのモデルが最先端の方法よりも優れており、超大規模なビデオテキストデータで事前にトレーニングするとさらに向上する可能性があることを示しています。
コードは\url{https://github.com/QiQAng/UEDVC}で入手できます。

要約(オリジナル)

Dense video captioning aims to generate corresponding text descriptions for a series of events in the untrimmed video, which can be divided into two sub-tasks, event detection and event captioning. Unlike previous works that tackle the two sub-tasks separately, recent works have focused on enhancing the inter-task association between the two sub-tasks. However, designing inter-task interactions for event detection and captioning is not trivial due to the large differences in their task specific solutions. Besides, previous event detection methods normally ignore temporal dependencies between events, leading to event redundancy or inconsistency problems. To tackle above the two defects, in this paper, we define event detection as a sequence generation task and propose a unified pre-training and fine-tuning framework to naturally enhance the inter-task association between event detection and captioning. Since the model predicts each event with previous events as context, the inter-dependency between events is fully exploited and thus our model can detect more diverse and consistent events in the video. Experiments on the ActivityNet dataset show that our model outperforms the state-of-the-art methods, and can be further boosted when pre-trained on extra large-scale video-text data. Code is available at \url{https://github.com/QiQAng/UEDVC}.

arxiv情報

著者 Qi Zhang,Yuqing Song,Qin Jin
発行日 2022-07-18 14:18:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク