要約
私たちは、ビデオ内のすべてのオブジェクトの軌跡を検出し、追跡し、キャプションを付ける、高密度ビデオ オブジェクトのキャプション作成のための新しいタスクとモデルを提案します。
このタスクでは、ビデオの空間的および時間的理解を統合し、きめ細かい言語記述を必要とします。
高密度ビデオ オブジェクト キャプション用のモデルはエンドツーエンドでトレーニングされ、空間位置特定、追跡、およびキャプション用のさまざまなモジュールで構成されています。
そのため、ばらばらのタスクを組み合わせてモデルをトレーニングし、モデルのさまざまな部分を監視する多様で大規模なデータセットを活用できます。
これにより、注目に値するゼロショット性能が得られます。
さらに、この初期化からモデルを微調整することで、パフォーマンスをさらに向上させ、強力な画像ベースのベースラインを大幅に上回ることができます。
このタスクを実行する他の作業はわかりませんが、既存のビデオ グラウンディング データセット、つまり VidSTG と VLN をタスクに再利用できます。
私たちのタスクはグラウンディングよりも一般的であり、クエリ文を生成する可能性が最も高い境界ボックスを見つけることで、タスクでトレーニングされたモデルをグラウンディングに直接適用できることを示します。
当社のモデルは、VidSTG と VLN の両方で空間接地に関して最先端の専用モデルを上回ります。
要約(オリジナル)
We propose a new task and model for dense video object captioning — detecting, tracking, and captioning trajectories of all objects in a video. This task unifies spatial and temporal understanding of the video, and requires fine-grained language description. Our model for dense video object captioning is trained end-to-end and consists of different modules for spatial localization, tracking, and captioning. As such, we can train our model with a mixture of disjoint tasks, and leverage diverse, large-scale datasets which supervise different parts of our model. This results in noteworthy zero-shot performance. Moreover, by finetuning a model from this initialization, we can further improve our performance, surpassing strong image-based baselines by a significant margin. Although we are not aware of other work performing this task, we are able to repurpose existing video grounding datasets for our task, namely VidSTG and VLN. We show our task is more general than grounding, and models trained on our task can directly be applied to grounding by finding the bounding box with the maximum likelihood of generating the query sentence. Our model outperforms dedicated, state-of-the-art models for spatial grounding on both VidSTG and VLN.
arxiv情報
著者 | Xingyi Zhou,Anurag Arnab,Chen Sun,Cordelia Schmid |
発行日 | 2023-06-20 17:57:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google