要約
一人称ビデオアシスタントは、オンラインビデオの対話を通じて私たちの日常生活を強化することを非常に期待しています。
ただし、既存のオンラインビデオアシスタントは、粗粒の視覚的特徴を使用して低フレームレートビデオを処理することにより、リアルタイムの効率のためにアシスタントの有効性を犠牲にすることがよくあります。有効性と効率性のトレードオフを克服するために、オンラインビデオアシスタント、ライオン-FS、リアルタイム、プロヤータイム、ポリティブ、およびコンテキストの正確な応答を実現することを提案します。
Lion-FSは2段階の最適化戦略を採用しています。1)高速パス:ルーティングベースの応答決定は、即時の応答が必要かどうかをフレームごとに評価します。
応答の決定精度を強化し、より高いフレームレートの入力を効率的に処理するために、トークン集約ルーティングを使用して、トークン数を増やすことなく空間的特徴を動的に融合させ、トークンドロップルーティングを利用して冗長機能を排除します。
2)スローパス:マルチ粒度キーフレームの増強は、応答生成中にキーフレームを最適化します。
トレーニングデータによって制約されている原子作用を超えた包括的かつ詳細な応答を提供するために、細粒の空間的特徴と人間と環境の相互作用機能が多粒プーリングを通じて抽出されます。
これらの機能は、より正確な応答生成をガイドするために、細心の注意を払って設計されたマルチモーダル思考テンプレートにさらに統合されています。
オンラインビデオタスクの包括的な評価は、ライオンFSが最新の有効性と効率を達成することを示しています。
要約(オリジナル)
First-person video assistants are highly anticipated to enhance our daily lives through online video dialogue. However, existing online video assistants often sacrifice assistant efficacy for real-time efficiency by processing low-frame-rate videos with coarse-grained visual features.To overcome the trade-off between efficacy and efficiency, we propose ‘Fast & Slow Video-Language Thinker’ as an onLIne videO assistaNt, LION-FS, achieving real-time, proactive, temporally accurate, and contextually precise responses. LION-FS adopts a two-stage optimization strategy: 1)Fast Path: Routing-Based Response Determination evaluates frame-by-frame whether an immediate response is necessary. To enhance response determination accuracy and handle higher frame-rate inputs efficiently, we employ Token Aggregation Routing to dynamically fuse spatiotemporal features without increasing token numbers, while utilizing Token Dropping Routing to eliminate redundant features. 2)Slow Path: Multi-granularity Keyframe Augmentation optimizes keyframes during response generation. To provide comprehensive and detailed responses beyond atomic actions constrained by training data, fine-grained spatial features and human-environment interaction features are extracted through multi-granular pooling. These features are further integrated into a meticulously designed multimodal Thinking Template to guide more precise response generation. Comprehensive evaluations on online video tasks demonstrate that LION-FS achieves state-of-the-art efficacy and efficiency.
arxiv情報
著者 | Wei Li,Bing Hu,Rui Shao,Leyang Shen,Liqiang Nie |
発行日 | 2025-03-05 16:52:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google