Mimicking or Reasoning: Rethinking Multi-Modal In-Context Learning in Vision-Language Models

要約

ビジョン言語モデル(VLM)は、言語のみの対応物の特性と同様の特性であるコンテキスト内学習(ICL)を示すと広く想定されています。
最近の研究では、VLMがマルチモーダルICL(MM-ICL)を実行できることが示唆されていますが、研究は、真のタスク理解ではなく、コピーや多数票などの浅いヒューリスティックに依存することが多いことを示しています。
サポートの例がクエリとは異なるデータセットから得られる分布シフトでVLMを評価することにより、この仮定を再検討します。
驚くべきことに、パフォーマンスはしばしばより多くのデモンストレーションで劣化し、モデルは回答から学ぶのではなく、回答をコピーする傾向があります。
さらに調査するために、回答とともに生成された理論的根拠を備えた各デモンストレーションを強化する推論パイプラインを備えた新しいMM-ICLを提案します。
3Bから72Bの範囲のオープンソースVLMとGEMINI 2.0などの独自モデルを備えた、知覚および推論要求の両方のデータセットの両方で、広範かつ包括的な実験を実施します。
さまざまなショットカウント、検索方法、理論的品質、および分布を制御した研究を実施します。
私たちの結果は、これらの要因全体でパフォーマンスの感度が限られていることを示しており、現在のVLMがMM-ICLで意図されているようにデモレベルの情報を効果的に利用しないことを示唆しています。

要約(オリジナル)

Vision-language models (VLMs) are widely assumed to exhibit in-context learning (ICL), a property similar to that of their language-only counterparts. While recent work suggests VLMs can perform multimodal ICL (MM-ICL), studies show they often rely on shallow heuristics — such as copying or majority voting — rather than true task understanding. We revisit this assumption by evaluating VLMs under distribution shifts, where support examples come from a dataset different from the query. Surprisingly, performance often degrades with more demonstrations, and models tend to copy answers rather than learn from them. To investigate further, we propose a new MM-ICL with Reasoning pipeline that augments each demonstration with a generated rationale alongside the answer. We conduct extensive and comprehensive experiments on both perception- and reasoning-required datasets with open-source VLMs ranging from 3B to 72B and proprietary models such as Gemini 2.0. We conduct controlled studies varying shot count, retrieval method, rationale quality, and distribution. Our results show limited performance sensitivity across these factors, suggesting that current VLMs do not effectively utilize demonstration-level information as intended in MM-ICL.

arxiv情報

著者 Chengyue Huang,Yuchen Zhu,Sichen Zhu,Jingyun Xiao,Moises Andrade,Shivang Chopra,Zsolt Kira
発行日 2025-06-09 16:55:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Mimicking or Reasoning: Rethinking Multi-Modal In-Context Learning in Vision-Language Models はコメントを受け付けていません

Enhancing Few-Shot Vision-Language Classification with Large Multimodal Model Features

要約

LlavaやQwen-VLのような生成的大規模マルチモーダルモデル(LMM)は、多種多様なビジョン言語(VL)タスクで優れています。
パフォーマンスが強いにもかかわらず、LMMSの生成出力は、画像分類や複数選択VQAなどのビジョン言語分類タスク(つまり、ビジョン言語入力と個別のラベルを備えたタスク)に特化していません。
これらのタスクにLMMSを利用する上での重要な課題の1つは、生成LMMから有用な機能の抽出です。
これを克服するために、LMMの潜在空間からのマルチモーダル機能抽出を活用するアプローチを提案します。
この目的に向かって、LMMSのまばらな注意ヘッドのアクティブ化(ヘッドの5%未満)を強力な特徴表現として活用する微妙なメソッド(SAVS)を提示します。
少数のショットの例しかないため、SAVは、ビジョン言語分類タスクのコレクションで、さまざまな少数のショットおよび微調整されたベースラインと比較して、最先端のパフォーマンスを示しています。
また、私たちの実験は、SAVが追加の例でパフォーマンスをスケーリングし、同様のタスクに一般化し、効果的で堅牢なマルチモーダル機能表現の両方としてSAVを確立できることを意味します。

要約(オリジナル)

Generative Large Multimodal Models (LMMs) like LLaVA and Qwen-VL excel at a wide variety of vision-language (VL) tasks. Despite strong performance, LMMs’ generative outputs are not specialized for vision-language classification tasks (i.e., tasks with vision-language inputs and discrete labels) such as image classification and multiple-choice VQA. One key challenge in utilizing LMMs for these tasks is the extraction of useful features from generative LMMs. To overcome this, we propose an approach that leverages multimodal feature extraction from the LMM’s latent space. Toward this end, we present Sparse Attention Vectors (SAVs) — a finetuning-free method that leverages sparse attention head activations (fewer than 5% of the heads) in LMMs as strong feature representations. With only few-shot examples, SAVs demonstrate state-of-the-art performance compared to a variety of few-shot and finetuned baselines on a collection of vision-language classification tasks. Our experiments also imply that SAVs can scale in performance with additional examples and generalize to similar tasks, establishing SAVs as both effective and robust multimodal feature representations.

arxiv情報

著者 Chancharik Mitra,Brandon Huang,Tianning Chai,Zhiqiu Lin,Assaf Arbelle,Rogerio Feris,Leonid Karlinsky,Trevor Darrell,Deva Ramanan,Roei Herzig
発行日 2025-06-09 17:01:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Enhancing Few-Shot Vision-Language Classification with Large Multimodal Model Features はコメントを受け付けていません

Decoupling the Image Perception and Multimodal Reasoning for Reasoning Segmentation with Digital Twin Representations

要約

推論セグメンテーション(RS)は、暗黙のテキストクエリに基づいてオブジェクトをセグメント化する必要があるマルチモーダルビジョンテキストタスクであり、正確な視覚的知覚とビジョンテキストの推論機能の両方を要求します。
現在のRSアプローチは、知覚と推論の両方に対して微調整ビジョン言語モデル(VLM)に依存していますが、画像のトークン化は、オブジェクト間の連続的な空間的関係を根本的に混乱させます。
Dtwinsegerを紹介します。Dtwinsegerは、推論から知覚を切り離すための中間層としてデジタルツイン(DT)表現を活用する新しいRSアプローチです。
革新的には、DTWINSEGERはRSを2段階のプロセスとして再定式化します。最初のプロセスでは、画像を空間的関係とセマンティックプロパティを保存する構造化されたDT表現に変換し、大規模な言語モデル(LLM)を使用して、この表現を表現してターゲットオブジェクトを特定します。
DT表現を備えたLLMと、DT表現を備えたLLMの推論機能を強化するために、DT表現を備えたLLM専用の監視付き微調整方法を提案します。
実験では、この方法が2つの画像RSベンチマークとセグメンテーションベンチマークを参照する3つの画像で最先端のパフォーマンスを実現できることを示しています。
DT表現は、ビジョンとテキストの間の効果的なブリッジとして機能し、複雑なマルチモーダル推論タスクをLLMでのみ実現できるようになります。

要約(オリジナル)

Reasoning Segmentation (RS) is a multimodal vision-text task that requires segmenting objects based on implicit text queries, demanding both precise visual perception and vision-text reasoning capabilities. Current RS approaches rely on fine-tuning vision-language models (VLMs) for both perception and reasoning, but their tokenization of images fundamentally disrupts continuous spatial relationships between objects. We introduce DTwinSeger, a novel RS approach that leverages Digital Twin (DT) representation as an intermediate layer to decouple perception from reasoning. Innovatively, DTwinSeger reformulates RS as a two-stage process, where the first transforms the image into a structured DT representation that preserves spatial relationships and semantic properties and then employs a Large Language Model (LLM) to perform explicit reasoning over this representation to identify target objects. We propose a supervised fine-tuning method specifically for LLM with DT representation, together with a corresponding fine-tuning dataset Seg-DT, to enhance the LLM’s reasoning capabilities with DT representations. Experiments show that our method can achieve state-of-the-art performance on two image RS benchmarks and three image referring segmentation benchmarks. It yields that DT representation functions as an effective bridge between vision and text, enabling complex multimodal reasoning tasks to be accomplished solely with an LLM.

arxiv情報

著者 Yizhen Li,Dell Zhang,Xuelong Li,Yiqing Shen
発行日 2025-06-09 17:05:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Decoupling the Image Perception and Multimodal Reasoning for Reasoning Segmentation with Digital Twin Representations はコメントを受け付けていません

What Changed and What Could Have Changed? State-Change Counterfactuals for Procedure-Aware Video Representation Learning

要約

手続き的なアクティビティを理解するには、アクションステップがシーンをどのように変換するかと、シーンの変換がどのように進化するシーンの変換が、偶発的または誤っているものであっても、アクションステップのシーケンスにどのように影響するかの両方をモデル化する必要があります。
既存の作業は、アクションの時間的順序のモデリングなどの新しいアプローチを提案することにより、手順を意識するビデオ表現を研究しており、状態の変化(シーン変換)を明示的に学習していません。
この作業では、ビデオエンコーダの監督信号として大規模な言語モデル(LLM)によって生成された状態変化の説明を組み込むことにより、手順を意識するビデオ表現学習を研究します。
さらに、仮定された障害の結果をシミュレートする状態変化の反事実を生成し、目に見えない「what if」シナリオを想像することでモデルが学習できるようにします。
この反事実的な推論は、アクティビティの各ステップの原因と結果を理解するモデルの能力を促進します。
モデルの手順認識を検証するために、一時的なアクションセグメンテーション、エラー検出、アクションフェーズ分類、フレーム検索、マルチインスタンス検索、アクション認識など、手順認識タスクに関する広範な実験を実施します。
私たちの結果は、提案された状態変化の説明とそれらの反事実の有効性を示し、複数のタスクの大幅な改善を達成します。
ソースコードとデータをまもなく公開します。

要約(オリジナル)

Understanding a procedural activity requires modeling both how action steps transform the scene and how evolving scene transformations can influence the sequence of action steps, even those that are accidental or erroneous. Existing work has studied procedure-aware video representations by proposing novel approaches such as modeling the temporal order of actions, and has not explicitly learned the state changes (scene transformations). In this work, we study procedure-aware video representation learning by incorporating state-change descriptions generated by Large Language Models (LLMs) as supervision signals for video encoders. Moreover, we generate state-change counterfactuals that simulate hypothesized failure outcomes, allowing models to learn by imagining the unseen “What if” scenarios. This counterfactual reasoning facilitates the model’s ability to understand the cause and effect of each step in an activity. To verify the procedure awareness of our model, we conduct extensive experiments on procedure-aware tasks, including temporal action segmentation, error detection, action phase classification, frame retrieval, multi-instance retrieval, and action recognition. Our results demonstrate the effectiveness of the proposed state-change descriptions and their counterfactuals, and achieve significant improvements on multiple tasks. We will make our source code and data publicly available soon.

arxiv情報

著者 Chi-Hsi Kung,Frangil Ramirez,Juhyung Ha,Yi-Ting Chen,David Crandall,Yi-Hsuan Tsai
発行日 2025-06-09 17:23:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | What Changed and What Could Have Changed? State-Change Counterfactuals for Procedure-Aware Video Representation Learning はコメントを受け付けていません

CORDIAL: Can Multimodal Large Language Models Effectively Understand Coherence Relationships?

要約

マルチモーダル大手言語モデル(MLLM)は、多様な問題ドメイン全体で優れた指導に従っている能力と推論機能で有名です。
ただし、既存のベンチマークは、主に、下流タスクの事実および論理的正しさの評価に焦点を当てており、実用的な手がかりとモーダル間の関係を解釈するMLLMの能力の評価に限られています。
このギャップに対処するために、コヒーレンス関係を使用してマルチモーダル談話分析(MDA)の実行におけるMLLMの能力を評価します。
私たちのベンチマーク、肉体的には、さまざまなレベルの粒度で3つの異なる談話ドメインにわたる幅広い一貫性関係を網羅しています。
さまざまなプロンプト戦略を採用している10以上のMLLMに関する実験を通じて、Gemini 1.5 ProやGPT-4Oなどのトップモデルでさえ、単純な分類器ベースのベースラインのパフォーマンスと一致できないことを示しています。
この研究は、類似性に基づいたメトリックを超えて、MLLMを評価するための談話主導のフレームワークを採用する必要性を強調し、能力のより微妙な評価を提供します。
ベンチマークとコードは、https://aashish2000.github.io/cordial/で入手できます。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) are renowned for their superior instruction-following and reasoning capabilities across diverse problem domains. However, existing benchmarks primarily focus on assessing factual and logical correctness in downstream tasks, with limited emphasis on evaluating MLLMs’ ability to interpret pragmatic cues and intermodal relationships. To address this gap, we assess the competency of MLLMs in performing Multimodal Discourse Analysis (MDA) using Coherence Relations. Our benchmark, CORDIAL, encompasses a broad spectrum of Coherence Relations across 3 different discourse domains at varying levels of granularity. Through our experiments on 10+ MLLMs employing different prompting strategies, we show that even top models like Gemini 1.5 Pro and GPT-4o fail to match the performance of simple classifier-based baselines. This study emphasizes the need to move beyond similarity-based metrics and adopt a discourse-driven framework for evaluating MLLMs, providing a more nuanced assessment of their capabilities. The benchmark and code are available at: https://aashish2000.github.io/CORDIAL/

arxiv情報

著者 Aashish Anantha Ramakrishnan,Aadarsh Anantha Ramakrishnan,Dongwon Lee
発行日 2025-06-09 17:25:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, I.2.10 | CORDIAL: Can Multimodal Large Language Models Effectively Understand Coherence Relationships? はコメントを受け付けていません

Creating a Historical Migration Dataset from Finnish Church Records, 1800-1920

要約

この記事では、デジタル化された教会の移動記録を使用して、1800年から1920年の間にフィンランドでの内部移行の構造化されたデータセットを作成するための大規模な取り組みを紹介します。
これらの記録は、福音派ルーテル教区によって維持され、個人と家族の移住を文書化し、歴史的な人口統計パターンを研究するための貴重な情報源を提供します。
データセットには、手書きの移行記録の約200,000枚の画像から抽出された600万件以上のエントリが含まれています。
データ抽出プロセスは、レイアウト分析、テーブル検出、セル分類、手書き認識を含む深い学習パイプラインを使用して自動化されました。
完全なパイプラインがすべての画像に適用され、研究に適した構造化されたデータセットが得られました。
データセットは、産業革命前のフィンランドでの内部移動、都市化、家族の移動、および病気のspread延を研究するために使用できます。
Elim \ ‘Aki Parishのケーススタディは、地域の移動履歴をどのように再構築できるかを示しています。
この作品は、手書きのアーカイブ素材を大量に構造化されたデータに変換して、歴史的および人口統計学的研究をサポートできることを示しています。

要約(オリジナル)

This article presents a large-scale effort to create a structured dataset of internal migration in Finland between 1800 and 1920 using digitized church moving records. These records, maintained by Evangelical-Lutheran parishes, document the migration of individuals and families and offer a valuable source for studying historical demographic patterns. The dataset includes over six million entries extracted from approximately 200,000 images of handwritten migration records. The data extraction process was automated using a deep learning pipeline that included layout analysis, table detection, cell classification, and handwriting recognition. The complete pipeline was applied to all images, resulting in a structured dataset suitable for research. The dataset can be used to study internal migration, urbanization, and family migration, and the spread of disease in preindustrial Finland. A case study from the Elim\’aki parish shows how local migration histories can be reconstructed. The work demonstrates how large volumes of handwritten archival material can be transformed into structured data to support historical and demographic research.

arxiv情報

著者 Ari Vesalainen,Jenna Kanerva,Aida Nitsch,Kiia Korsu,Ilari Larkiola,Laura Ruotsalainen,Filip Ginter
発行日 2025-06-09 17:32:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.4.6, J.5 | Creating a Historical Migration Dataset from Finnish Church Records, 1800-1920 はコメントを受け付けていません

Reinforcing Multimodal Understanding and Generation with Dual Self-rewards

要約

大規模な言語モデル(LLMS)に基づいて、最近の大規模なマルチモーダルモデル(LMM)がクロスモデルの理解と生成を単一のフレームワークに統合します。
ただし、LMMは依然として正確な画像テキストアラインメントを達成するのに苦労しており、視覚入力と矛盾するテキスト応答を生成したり、テキストから画像へのプロンプトに従わなかったりする傾向があります。
現在のソリューションでは、外部の監督(たとえば、人間のフィードバックまたは報酬モデル)が必要であり、一方向のタスク(理解または生成)のみに対処する必要があります。
この作業では、理解と生成が逆二重のタスクであるという観察に基づいて、LMMの理解と生成能力を強化するための自己監視された二重報酬メカニズムを導入します。
具体的には、特定の入力の複数の出力を1つのタスクドメインでサンプリングし、入出力ペアを逆にして、モデルのデュアル可能性を最適化のために自己報酬として計算します。
視覚的理解と生成のベンチマークに関する広範な実験結果は、この方法が外部の監督なしでモデルのパフォーマンスを効果的に向上させることができることを示しています。

要約(オリジナル)

Building upon large language models (LLMs), recent large multimodal models (LMMs) unify cross-model understanding and generation into a single framework. However, LMMs still struggle to achieve accurate image-text alignment, prone to generating text responses contradicting the visual input or failing to follow the text-to-image prompts. Current solutions require external supervision (e.g., human feedback or reward models) and only address unidirectional tasks-either understanding or generation. In this work, based on the observation that understanding and generation are inverse dual tasks, we introduce a self-supervised dual reward mechanism to reinforce the understanding and generation capabilities of LMMs. Specifically, we sample multiple outputs for a given input in one task domain, then reverse the input-output pairs to compute the dual likelihood of the model as self-rewards for optimization. Extensive experimental results on visual understanding and generation benchmarks demonstrate that our method can effectively enhance the performance of the model without any external supervision, especially achieving remarkable improvements in text-to-image tasks.

arxiv情報

著者 Jixiang Hong,Yiran Zhang,Guanzhong Wang,Yi Liu,Ji-Rong Wen,Rui Yan
発行日 2025-06-09 17:38:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Reinforcing Multimodal Understanding and Generation with Dual Self-rewards はコメントを受け付けていません

SlideCoder: Layout-aware RAG-enhanced Hierarchical Slide Generation from Design

要約

手動スライドの作成は労働集約的であり、専門家の事前知識が必要です。
既存の自然言語ベースのLLM生成方法は、スライドデザインの視覚的および構造的なニュアンスを捉えるのに苦労しています。
これに対処するために、参照イメージをスライド生成タスクに正式にし、新しいスライドの複雑さメトリックに基づいて難易度層のサンプルを使用した最初のベンチマークであるSlide2Codeを提案します。
参照イメージから編集可能なスライドを生成するためのレイアウト認識で検索された高級フレームワークであるSlideCoderを紹介します。
SlideCoderは、複雑なタスクを分解し、コード生成を強化するために、カラーグラデーションベースのセグメンテーションアルゴリズムと階層検索の高度生成方法を統合します。
また、改善されたリバースエンジニアリングデータで微調整された7BオープンソースモデルであるSlidemasterもリリースします。
実験では、スライドコダーが最先端のベースラインを最大40.5ポイント上回ることを示しており、レイアウトの忠実度、実行の精度、視覚的な一貫性全体で強力なパフォーマンスを示しています。
当社のコードは、https://github.com/vinsontang1/slidecoderで入手できます。

要約(オリジナル)

Manual slide creation is labor-intensive and requires expert prior knowledge. Existing natural language-based LLM generation methods struggle to capture the visual and structural nuances of slide designs. To address this, we formalize the Reference Image to Slide Generation task and propose Slide2Code, the first benchmark with difficulty-tiered samples based on a novel Slide Complexity Metric. We introduce SlideCoder, a layout-aware, retrieval-augmented framework for generating editable slides from reference images. SlideCoder integrates a Color Gradient-based Segmentation algorithm and a Hierarchical Retrieval-Augmented Generation method to decompose complex tasks and enhance code generation. We also release SlideMaster, a 7B open-source model fine-tuned with improved reverse-engineered data. Experiments show that SlideCoder outperforms state-of-the-art baselines by up to 40.5 points, demonstrating strong performance across layout fidelity, execution accuracy, and visual consistency. Our code is available at https://github.com/vinsontang1/SlideCoder.

arxiv情報

著者 Wenxin Tang,Jingyu Xiao,Wenxuan Jiang,Xi Xiao,Yuhang Wang,Xuxin Tang,Qing Li,Yuehe Ma,Junliang Liu,Shisong Tang,Michael R. Lyu
発行日 2025-06-09 17:39:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | SlideCoder: Layout-aware RAG-enhanced Hierarchical Slide Generation from Design はコメントを受け付けていません

SpaCE-10: A Comprehensive Benchmark for Multimodal Large Language Models in Compositional Spatial Intelligence

要約

マルチモーダル大手言語モデル(MLLM)は、さまざまなマルチモーダルタスクで顕著な進歩を遂げています。
宇宙でより高いインテリジェンスを追求するために、MLLMは複雑で動的なタスクを処理するために複数の原子空間機能を統合する必要があります。
ただし、既存のベンチマークは、原子レベルから組成レベルまでの一般的なMLLMの空間知能を包括的に評価するのに苦労しています。
このギャップを埋めるために、組成の空間評価のための包括的なベンチマークであるSpace-10を紹介します。
Space-10では、10の原子空間能力を定義します。これらは、組み合わせて8つの組成能力を形成します。
これらの定義に基づいて、高品質で多様な質問回答(QA)ペアを生成するために、新しい階層的な注釈パイプラインを提案します。
150時間以上の人間の専門家の努力により、Point Cloud入力やマルチ選択QAなどのさまざまな評価設定をカバーするSpace-10で、811の実際の屋内シーンで5kを超えるQAペアを取得します。
私たちは、Space-10で一般的なMLLMの広範な評価を実施し、最も高度なMLLMでさえ、人間に大きなマージンで遅れていることがわかります。
慎重な研究を通じて、MLLMコミュニティに利益をもたらすいくつかの重要な調査結果も描きます。
たとえば、カウント能力が既存のMLLMの組成空間機能を大幅に制限することが大幅に制限されることを明らかにします。
評価コードとベンチマークデータセットは、https://github.com/cuzyoung/space-10で入手できます。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) have achieved remarkable progress in various multimodal tasks. To pursue higher intelligence in space, MLLMs require integrating multiple atomic spatial capabilities to handle complex and dynamic tasks. However, existing benchmarks struggle to comprehensively evaluate the spatial intelligence of common MLLMs from the atomic level to the compositional level. To fill this gap, we present SpaCE-10, a comprehensive benchmark for compositional spatial evaluations. In SpaCE-10, we define 10 atomic spatial capabilities, which are combined to form 8 compositional capabilities. Based on these definitions, we propose a novel hierarchical annotation pipeline to generate high-quality and diverse question-answer (QA) pairs. With over 150+ hours of human expert effort, we obtain over 5k QA pairs for 811 real indoor scenes in SpaCE-10, which covers various evaluation settings like point cloud input and multi-choice QA. We conduct an extensive evaluation of common MLLMs on SpaCE-10 and find that even the most advanced MLLM still lags behind humans by large margins. Through our careful study, we also draw several significant findings that benefit the MLLM community. For example, we reveal that the shortcoming of counting capability greatly limits the compositional spatial capabilities of existing MLLMs. The evaluation code and benchmark datasets are available at https://github.com/Cuzyoung/SpaCE-10.

arxiv情報

著者 Ziyang Gong,Wenhao Li,Oliver Ma,Songyuan Li,Jiayi Ji,Xue Yang,Gen Luo,Junchi Yan,Rongrong Ji
発行日 2025-06-09 17:41:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SpaCE-10: A Comprehensive Benchmark for Multimodal Large Language Models in Compositional Spatial Intelligence はコメントを受け付けていません

CyberV: Cybernetics for Test-time Scaling in Video Understanding

要約

現在のマルチモーダル大手言語モデル(MLLMS)は、テスト時に計算的な要求、堅牢性の欠如、および主にフィードフォワード処理の性質に起因する限られた精度のために、長いまたは複雑なビデオの理解に苦労する可能性があります。
これらの制限は、パラメーターが少ないモデルではより深刻になる可能性があります。
これらの制限に対処するために、サイバネティック原則に触発された新しいフレームワークを提案し、推論中の自己監視、自己修正、および動的なリソース割り当てが可能な適応システムとしてビデオMLLMを再設計します。
私たちのアプローチであるCyber​​vは、MLLM推論システム、センサー、およびコントローラーで構成されるサイバネティックループを導入します。
具体的には、センサーはMLLMの転送プロセスを監視し、注意ドリフトなどの中間解釈を収集し、コントローラーは、いつ、どのように自己修正をトリガーし、フィードバックを生成して次のラウンドをガイドするかを決定します。
このテスト時間適応スケーリングフレームワークは、再訓練や追加のコンポーネントを必要とせずに、冷凍MLLMを強化します。
実験は大幅な改善を示しています。Cyber​​vは、QWEN2.5-VL-7Bを8.3%、InternVL3-8BをVideMommMUで5.5%増加させ、競合専有モデルGPT-4Oを上回ります。
QWEN2.5-VL-72Bに適用すると、10.0%の改善が得られ、人間の専門家に匹敵するパフォーマンスを達成します。
さらに、私たちの方法は、VideommeやWorldSenseなどの汎用ベンチマークで一貫した利益を示し、MLLMを動的なビデオ理解のためにより堅牢で正確にするための有効性と一般化能力を強調しています。
このコードはhttps://github.com/marinero4972/cybervでリリースされています。

要約(オリジナル)

Current Multimodal Large Language Models (MLLMs) may struggle with understanding long or complex videos due to computational demands at test time, lack of robustness, and limited accuracy, primarily stemming from their feed-forward processing nature. These limitations could be more severe for models with fewer parameters. To address these limitations, we propose a novel framework inspired by cybernetic principles, redesigning video MLLMs as adaptive systems capable of self-monitoring, self-correction, and dynamic resource allocation during inference. Our approach, CyberV, introduces a cybernetic loop consisting of an MLLM Inference System, a Sensor, and a Controller. Specifically, the sensor monitors forward processes of the MLLM and collects intermediate interpretations, such as attention drift, then the controller determines when and how to trigger self-correction and generate feedback to guide the next round. This test-time adaptive scaling framework enhances frozen MLLMs without requiring retraining or additional components. Experiments demonstrate significant improvements: CyberV boosts Qwen2.5-VL-7B by 8.3% and InternVL3-8B by 5.5% on VideoMMMU, surpassing the competitive proprietary model GPT-4o. When applied to Qwen2.5-VL-72B, it yields a 10.0% improvement, achieving performance even comparable to human experts. Furthermore, our method demonstrates consistent gains on general-purpose benchmarks, such as VideoMME and WorldSense, highlighting its effectiveness and generalization capabilities in making MLLMs more robust and accurate for dynamic video understanding. The code is released at https://github.com/marinero4972/CyberV.

arxiv情報

著者 Jiahao Meng,Shuyang Sun,Yue Tan,Lu Qi,Yunhai Tong,Xiangtai Li,Longyin Wen
発行日 2025-06-09 17:45:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CyberV: Cybernetics for Test-time Scaling in Video Understanding はコメントを受け付けていません