要約
現在のマルチモーダル大手言語モデル(MLLMS)は、テスト時に計算的な要求、堅牢性の欠如、および主にフィードフォワード処理の性質に起因する限られた精度のために、長いまたは複雑なビデオの理解に苦労する可能性があります。
これらの制限は、パラメーターが少ないモデルではより深刻になる可能性があります。
これらの制限に対処するために、サイバネティック原則に触発された新しいフレームワークを提案し、推論中の自己監視、自己修正、および動的なリソース割り当てが可能な適応システムとしてビデオMLLMを再設計します。
私たちのアプローチであるCybervは、MLLM推論システム、センサー、およびコントローラーで構成されるサイバネティックループを導入します。
具体的には、センサーはMLLMの転送プロセスを監視し、注意ドリフトなどの中間解釈を収集し、コントローラーは、いつ、どのように自己修正をトリガーし、フィードバックを生成して次のラウンドをガイドするかを決定します。
このテスト時間適応スケーリングフレームワークは、再訓練や追加のコンポーネントを必要とせずに、冷凍MLLMを強化します。
実験は大幅な改善を示しています。Cybervは、QWEN2.5-VL-7Bを8.3%、InternVL3-8BをVideMommMUで5.5%増加させ、競合専有モデルGPT-4Oを上回ります。
QWEN2.5-VL-72Bに適用すると、10.0%の改善が得られ、人間の専門家に匹敵するパフォーマンスを達成します。
さらに、私たちの方法は、VideommeやWorldSenseなどの汎用ベンチマークで一貫した利益を示し、MLLMを動的なビデオ理解のためにより堅牢で正確にするための有効性と一般化能力を強調しています。
このコードはhttps://github.com/marinero4972/cybervでリリースされています。
要約(オリジナル)
Current Multimodal Large Language Models (MLLMs) may struggle with understanding long or complex videos due to computational demands at test time, lack of robustness, and limited accuracy, primarily stemming from their feed-forward processing nature. These limitations could be more severe for models with fewer parameters. To address these limitations, we propose a novel framework inspired by cybernetic principles, redesigning video MLLMs as adaptive systems capable of self-monitoring, self-correction, and dynamic resource allocation during inference. Our approach, CyberV, introduces a cybernetic loop consisting of an MLLM Inference System, a Sensor, and a Controller. Specifically, the sensor monitors forward processes of the MLLM and collects intermediate interpretations, such as attention drift, then the controller determines when and how to trigger self-correction and generate feedback to guide the next round. This test-time adaptive scaling framework enhances frozen MLLMs without requiring retraining or additional components. Experiments demonstrate significant improvements: CyberV boosts Qwen2.5-VL-7B by 8.3% and InternVL3-8B by 5.5% on VideoMMMU, surpassing the competitive proprietary model GPT-4o. When applied to Qwen2.5-VL-72B, it yields a 10.0% improvement, achieving performance even comparable to human experts. Furthermore, our method demonstrates consistent gains on general-purpose benchmarks, such as VideoMME and WorldSense, highlighting its effectiveness and generalization capabilities in making MLLMs more robust and accurate for dynamic video understanding. The code is released at https://github.com/marinero4972/CyberV.
arxiv情報
著者 | Jiahao Meng,Shuyang Sun,Yue Tan,Lu Qi,Yunhai Tong,Xiangtai Li,Longyin Wen |
発行日 | 2025-06-09 17:45:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google