Language Repository for Long Video Understanding

要約

マルチモーダル LLM の台頭により、言語はコンピューター ビジョンにおける重要なモダリティになりました。
長いコンテキスト長をサポートしているにもかかわらず、長期情報を処理する有効性は入力の長さに応じて徐々に低下します。
これは、特に長時間ビデオの理解などのアプリケーションでは重要になります。
このペーパーでは、簡潔で構造化された情報を解釈可能な (つまり、すべてテキストの) 表現として維持する、LLM 用の言語リポジトリ (LangRepo) を紹介します。
私たちのリポジトリは、マルチスケールのビデオ チャンクに基づいて繰り返し更新されます。
テキスト内の冗長性を取り除き、さまざまな時間スケールで情報を抽出することに重点を置いた書き込み操作と読み取り操作を導入します。
提案されたフレームワークは、EgoSchema、NExT-QA、IntentQA、NExT-GQA などのゼロショット ビジュアル質問応答ベンチマークで評価され、その規模で最先端のパフォーマンスを示しています。
私たちのコードは https://github.com/kkahatapitiya/LangRepo で入手できます。

要約(オリジナル)

Language has become a prominent modality in computer vision with the rise of multi-modal LLMs. Despite supporting long context-lengths, their effectiveness in handling long-term information gradually declines with input length. This becomes critical, especially in applications such as long-form video understanding. In this paper, we introduce a Language Repository (LangRepo) for LLMs, that maintains concise and structured information as an interpretable (i.e., all-textual) representation. Our repository is updated iteratively based on multi-scale video chunks. We introduce write and read operations that focus on pruning redundancies in text, and extracting information at various temporal scales. The proposed framework is evaluated on zero-shot visual question-answering benchmarks including EgoSchema, NExT-QA, IntentQA and NExT-GQA, showing state-of-the-art performance at its scale. Our code is available at https://github.com/kkahatapitiya/LangRepo.

arxiv情報

著者 Kumara Kahatapitiya,Kanchana Ranasinghe,Jongwoo Park,Michael S. Ryoo
発行日 2024-03-21 17:59:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク