要約
StreamBridgeを紹介します。これは、オフラインのビデオllmsをストリーミング対応モデルにシームレスに変換するシンプルで効果的なフレームワークです。
既存のモデルをオンラインシナリオに適応させる際の2つの基本的な課題に対処します。(1)マルチターンのリアルタイム理解のための限られた機能、および(2)積極的な応答メカニズムの欠如。
具体的には、Streambridgeには、(1)丸い延期圧縮戦略と組み合わせたメモリバッファーが組み込まれており、長いコンテキストのマルチターン相互作用をサポートし、(2)既存のビデオLLMに簡単に統合され、連続的なプロアクティブな応答を可能にする可能性のある軽量な活性化モデルが組み込まれています。
Streambridgeをさらにサポートするために、ビデオテキストシーケンスと多様な命令形式を備えた、ビデオテキストシーケンスと多様な命令形式を備えた、ビデオ理解のストリーミングに合わせた大規模なデータセットであるStream-ITを構築します。
広範な実験では、StreambridgeがさまざまなタスクにわたるオフラインビデオLLMのストリーミング理解機能を大幅に改善し、GPT-4oやGemini 1.5 Proなどの独自モデルを上回ることを示しています。
同時に、標準的なビデオ理解ベンチマークで競争力のあるパフォーマンスまたは優れたパフォーマンスを実現します。
要約(オリジナル)
We present StreamBridge, a simple yet effective framework that seamlessly transforms offline Video-LLMs into streaming-capable models. It addresses two fundamental challenges in adapting existing models into online scenarios: (1) limited capability for multi-turn real-time understanding, and (2) lack of proactive response mechanisms. Specifically, StreamBridge incorporates (1) a memory buffer combined with a round-decayed compression strategy, supporting long-context multi-turn interactions, and (2) a decoupled, lightweight activation model that can be effortlessly integrated into existing Video-LLMs, enabling continuous proactive responses. To further support StreamBridge, we construct Stream-IT, a large-scale dataset tailored for streaming video understanding, featuring interleaved video-text sequences and diverse instruction formats. Extensive experiments show that StreamBridge significantly improves the streaming understanding capabilities of offline Video-LLMs across various tasks, outperforming even proprietary models such as GPT-4o and Gemini 1.5 Pro. Simultaneously, it achieves competitive or superior performance on standard video understanding benchmarks.
arxiv情報
著者 | Haibo Wang,Bo Feng,Zhengfeng Lai,Mingze Xu,Shiyu Li,Weifeng Ge,Afshin Dehghan,Meng Cao,Ping Huang |
発行日 | 2025-05-08 17:57:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google