BiLL-VTG: Bridging Large Language Models and Lightweight Visual Tools for Video-based Texts Generation

要約

ビデオのユーザー指示に対するテキスト応答を生成するモデルを構築することは、ビジョンの理解と知識推論の両方が必要となるため、実践的でやりがいのあるトピックです。
言語や画像のモダリティと比較して、既存の研究では短い説明に沿った大量のまばらなビデオでモデルをトレーニングするため、トレーニング効率は依然として深刻な問題です。
このペーパーでは、必須の軽量ビジュアル ツールに基づいてビデオの推論に大規模言語モデル (LLM) を活用する高速適応フレームワークである BiLL-VTG を紹介します。
具体的には、特定の指示に応答するための鍵は関連するビデオ イベントに集中することであることを明らかにし、構造化されたシーン グラフの生成と説明的な画像キャプションの生成という 2 つの視覚ツールを利用してイベント情報を収集して表現します。
したがって、指定されたビデオイベントに対して複数の推論ステップを実行することによって応答を達成するための推論エージェントとして、世界の知識を備えたLLMが採用されます。エージェントからイベントを特定することの困難に対処するために、我々はさらに命令指向のビデオイベント認識(InsOVER)を提案します。
) 効率的なハンガリー語マッチングに基づくアルゴリズムを使用して、言語命令を使用して対応するビデオ イベントをローカライズし、LLM が長いビデオを操作できるようにします。
2 つの典型的なビデオベースのテキスト生成タスクに関する広範な実験により、調整不要のフレームワークが Flamingo-80B などの事前トレーニング済みモデルを上回り、最先端のパフォーマンスを達成できることがわかりました。

要約(オリジナル)

Building models that generate textual responses to user instructions for videos is a practical and challenging topic, as it requires both vision understanding and knowledge reasoning. Compared to language and image modalities, training efficiency remains a serious problem as existing studies train models on massive sparse videos aligned with brief descriptions. In this paper, we introduce BiLL-VTG, a fast adaptive framework that leverages large language models (LLMs) to reasoning on videos based on essential lightweight visual tools. Specifically, we reveal the key to response specific instructions is the concentration on relevant video events, and utilize two visual tools of structured scene graph generation and descriptive image caption generation to gather and represent the events information. Thus, a LLM equipped with world knowledge is adopted as the reasoning agent to achieve the response by performing multiple reasoning steps on specified video events.To address the difficulty of specifying events from agent, we further propose an Instruction-oriented Video Events Recognition (InsOVER) algorithm based on the efficient Hungarian matching to localize corresponding video events using linguistic instructions, enabling LLMs to interact with long videos. Extensive experiments on two typical video-based texts generations tasks show that our tuning-free framework outperforms the pre-trained models including Flamingo-80B, to achieve the state-of-the-art performance.

arxiv情報

著者 Ji Qi,Kaixuan Ji,Jifan Yu,Duokang Wang,Bin Xu,Lei Hou,Juanzi Li
発行日 2023-10-16 17:05:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク