要約
この論文では、事前にトレーニングされフリーズされたビジュアル エンコーダーと大規模言語モデル (LLM) を使用して、タスクの長いビデオ シーケンスを処理するテキスト条件付きビデオ リサンプラー (TCR) モジュールを紹介します。
TCR は、テキスト条件が与えられたビデオから関連する視覚的特徴を特定し、LLM に提供してテキスト応答を生成します。
TCR は軽量設計とクロスアテンションの使用により、最適化された実装を必要とせず、単純なアテンションで一度に 100 フレームを超えるフレームを処理できます。
私たちは以下の貢献を行っています。(i) タスクに基づいて条件付けされた長いビデオを処理できるトランスフォーマーベースのサンプリング アーキテクチャと、事前にトレーニングされた視覚モデルと言語モデルの橋渡しを可能にするトレーニング方法を設計します。
(ii) より長いビデオ認識から恩恵を受ける可能性のあるタスクを特定します。
(iii) NextQA、EgoSchema、EGO4D-LTA チャレンジを含むさまざまな評価タスクに対するその有効性を経験的に検証します。
要約(オリジナル)
In this paper we present a text-conditioned video resampler (TCR) module that uses a pre-trained and frozen visual encoder and large language model (LLM) to process long video sequences for a task. TCR localises relevant visual features from the video given a text condition and provides them to a LLM to generate a text response. Due to its lightweight design and use of cross-attention, TCR can process more than 100 frames at a time with plain attention and without optimised implementations. We make the following contributions: (i) we design a transformer-based sampling architecture that can process long videos conditioned on a task, together with a training method that enables it to bridge pre-trained visual and language models; (ii) we identify tasks that could benefit from longer video perception; and (iii) we empirically validate its efficacy on a wide variety of evaluation tasks including NextQA, EgoSchema, and the EGO4D-LTA challenge.
arxiv情報
著者 | Bruno Korbar,Yongqin Xian,Alessio Tonioni,Andrew Zisserman,Federico Tombari |
発行日 | 2024-08-19 12:47:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google