VideoEval-Pro: Robust and Realistic Long Video Understanding Evaluation

要約

大規模なマルチモーダルモデル(LMM)は最近、長いビデオ理解(LVU)の強力なツールとして浮上しており、標準化されたLVUベンチマークの開発を促し、パフォーマンスを評価しています。
しかし、私たちの調査は、既存のLVUベンチマークに対するかなり落ち着いた教訓を明らかにしています。
第一に、ほとんどの既存のベンチマークは、正解を推測する可能性があるため、評価結果が膨らんでいる複数選択の質問(MCQ)に大きく依存しています。
第二に、これらのベンチマークの質問のかなりの部分には、入力ビデオを読むことなくモデルが直接答えることができるようにする強力な事前にあります。
たとえば、Gemini-1.5-Proは、ビデオ-MME上の長いビデオからのランダムなフレームを考えると、50を超える精度を実現できます。
また、フレームの数を増やすことで、必ずしも直感に反する既存のベンチマークの改善につながるとは限らないことがわかります。
その結果、現在のLVUベンチマークの妥当性と堅牢性は損なわれており、LMMSの長いビデオ理解能力の忠実な評価を妨げています。
この問題に取り組むために、ビデオ全体を理解する必要がある自由回答形式の短い回答に関する質問を含む現実的なLVUベンチマークであるVideyVal-Proを提案します。
VideyEval-Proは、知覚と推論タスクを通じて、セグメントレベルとフルビデオの両方の理解を評価します。
21の独自およびオープンソースのビデオLMMを評価することにより、次の調査結果を結論付けます。(1)ビデオLMMSは、MCQと比較して、オープンエンドの質問に劇的なパフォーマンス($> $ 25 \%)がドロップすることを示しています。
(2)驚くべきことに、MCQスコアが高いほど、Videoval-Proのオープンエンドスコアが高くなることはありません。
(3)他のMCQベンチマークと比較して、VideoVal-Proは、入力フレームの数を増やすことでより多くの利点があります。
私たちの結果は、Videoval-Proがより現実的で信頼できる長いビデオ理解を提供し、このドメインの進歩のより明確な見方を提供することを示しています。

要約(オリジナル)

Large multimodal models (LMMs) have recently emerged as a powerful tool for long video understanding (LVU), prompting the development of standardized LVU benchmarks to evaluate their performance. However, our investigation reveals a rather sober lesson for existing LVU benchmarks. First, most existing benchmarks rely heavily on multiple-choice questions (MCQs), whose evaluation results are inflated due to the possibility of guessing the correct answer; Second, a significant portion of questions in these benchmarks have strong priors to allow models to answer directly without even reading the input video. For example, Gemini-1.5-Pro can achieve over 50\% accuracy given a random frame from a long video on Video-MME. We also observe that increasing the number of frames does not necessarily lead to improvement on existing benchmarks, which is counterintuitive. As a result, the validity and robustness of current LVU benchmarks are undermined, impeding a faithful assessment of LMMs’ long-video understanding capability. To tackle this problem, we propose VideoEval-Pro, a realistic LVU benchmark containing questions with open-ended short-answer, which truly require understanding the entire video. VideoEval-Pro assesses both segment-level and full-video understanding through perception and reasoning tasks. By evaluating 21 proprietary and open-source video LMMs, we conclude the following findings: (1) video LMMs show drastic performance ($>$25\%) drops on open-ended questions compared with MCQs; (2) surprisingly, higher MCQ scores do not lead to higher open-ended scores on VideoEval-Pro; (3) compared to other MCQ benchmarks, VideoEval-Pro benefits more from increasing the number of input frames. Our results show that VideoEval-Pro offers a more realistic and reliable measure of long video understanding, providing a clearer view of progress in this domain.

arxiv情報

著者 Wentao Ma,Weiming Ren,Yiming Jia,Zhuofeng Li,Ping Nie,Ge Zhang,Wenhu Chen
発行日 2025-05-20 17:26:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | VideoEval-Pro: Robust and Realistic Long Video Understanding Evaluation はコメントを受け付けていません

CAD-Coder: An Open-Source Vision-Language Model for Computer-Aided Design Code Generation

要約

正確で編集可能な3D CADモデルの効率的な作成は、エンジニアリング設計において重要であり、製品革新のコストと市場までの時間に大きな影響を与えます。
現在の手動ワークフローは非常に時間がかかり、幅広いユーザーの専門知識を要求しています。
AI駆動型CAD世代の最近の開発は約束を示していますが、既存のモデルは、CAD操作の不完全な表現、実際の画像に一般化できないこと、および低い出力の精度によって制限されています。
このペーパーでは、視覚入力から直接編集可能なCADコード(CADQUERY PYTHON)を生成するために明示的に微調整されたオープンソースビジョン言語モデル(VLM)であるCAD-Coderを紹介します。
163k以上のCADモデル画像とコードペアで構成されるGENCADコードを作成した新しいデータセットを活用すると、CADコダーは、GPT-4.5やQWEN2.5-VL-72Bなどの最先端のVLMベースラインを上回り、100%有効なシンタックスレートと3Dソリッドの類似性を達成します。
特に、当社のVLMは一般化可能性のいくつかの兆候を示し、実際の画像からCADコードを正常に生成し、微調整中に目にされていないCAD操作を実行します。
CADコダーのパフォーマンスと適応性は、エンジニアとデザイナーのCADワークフローを合理化するためにコード上で微調整されたVLMSの可能性を強調しています。
CAD-Coderは、https://github.com/anniedoris/cad-coderで公開されています。

要約(オリジナル)

Efficient creation of accurate and editable 3D CAD models is critical in engineering design, significantly impacting cost and time-to-market in product innovation. Current manual workflows remain highly time-consuming and demand extensive user expertise. While recent developments in AI-driven CAD generation show promise, existing models are limited by incomplete representations of CAD operations, inability to generalize to real-world images, and low output accuracy. This paper introduces CAD-Coder, an open-source Vision-Language Model (VLM) explicitly fine-tuned to generate editable CAD code (CadQuery Python) directly from visual input. Leveraging a novel dataset that we created–GenCAD-Code, consisting of over 163k CAD-model image and code pairs–CAD-Coder outperforms state-of-the-art VLM baselines such as GPT-4.5 and Qwen2.5-VL-72B, achieving a 100% valid syntax rate and the highest accuracy in 3D solid similarity. Notably, our VLM demonstrates some signs of generalizability, successfully generating CAD code from real-world images and executing CAD operations unseen during fine-tuning. The performance and adaptability of CAD-Coder highlights the potential of VLMs fine-tuned on code to streamline CAD workflows for engineers and designers. CAD-Coder is publicly available at: https://github.com/anniedoris/CAD-Coder.

arxiv情報

著者 Anna C. Doris,Md Ferdous Alam,Amin Heyrani Nobari,Faez Ahmed
発行日 2025-05-20 17:34:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | CAD-Coder: An Open-Source Vision-Language Model for Computer-Aided Design Code Generation はコメントを受け付けていません

Beyond Words: Multimodal LLM Knows When to Speak

要約

大規模な言語モデル(LLM)ベースのチャットボットは、コヒーレントでコンテキストに関連する応答を生成する際に強力な機能を実証していますが、特に進行中の会話中に短いタイムリーな反応を提供する際に、いつ話すかを理解することに苦労することがよくあります。
この制限は、主にテキスト入力への依存から生じ、現実世界の人間の対話における豊富な文脈的キューが欠けています。
この作業では、ビジョン、オーディオ、テキスト全体の微妙なマルチモーダルシグナルに依存する短い反応的な発話に重点を置いて、応答タイプのリアルタイム予測に焦点を当てています。
これをサポートするために、一時的に整列した視覚的、聴覚、およびテキストストリームを含む、実際の会話ビデオから構築された新しいマルチモーダルデータセットを紹介します。
このデータセットにより、ダイアディック相互作用における応答タイミングの細かいモデリングが可能になります。
このデータセットに基づいて、視覚、聴覚、およびテキストのコンテキストを適応的に統合して応答を予測するマルチモーダルLLMベースのモデルであるMM-When2Speakを提案します。
実験では、MM-When2Speakが最先端のUnimodalおよびLLMベースのベースラインを大幅に上回り、主要な商用LLMよりも応答タイミングの精度を最大4倍改善することが示されています。
これらの結果は、タイムリーで自然な、魅力的な会話型AIを生産するためのマルチモーダル入力の重要性を強調しています。

要約(オリジナル)

While large language model (LLM)-based chatbots have demonstrated strong capabilities in generating coherent and contextually relevant responses, they often struggle with understanding when to speak, particularly in delivering brief, timely reactions during ongoing conversations. This limitation arises largely from their reliance on text input, lacking the rich contextual cues in real-world human dialogue. In this work, we focus on real-time prediction of response types, with an emphasis on short, reactive utterances that depend on subtle, multimodal signals across vision, audio, and text. To support this, we introduce a new multimodal dataset constructed from real-world conversational videos, containing temporally aligned visual, auditory, and textual streams. This dataset enables fine-grained modeling of response timing in dyadic interactions. Building on this dataset, we propose MM-When2Speak, a multimodal LLM-based model that adaptively integrates visual, auditory, and textual context to predict when a response should occur, and what type of response is appropriate. Experiments show that MM-When2Speak significantly outperforms state-of-the-art unimodal and LLM-based baselines, achieving up to a 4x improvement in response timing accuracy over leading commercial LLMs. These results underscore the importance of multimodal inputs for producing timely, natural, and engaging conversational AI.

arxiv情報

著者 Zikai Liao,Yi Ouyang,Yi-Lun Lee,Chen-Ping Yu,Yi-Hsuan Tsai,Zhaozheng Yin
発行日 2025-05-20 17:42:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Beyond Words: Multimodal LLM Knows When to Speak はコメントを受け付けていません

EmoGist: Efficient In-Context Learning for Visual Emotion Understanding

要約

この論文では、LVLMSを使用して視覚的な感情分類を実行するためのトレーニングフリーのコンテキスト学習方法であるエモジストを紹介します。
私たちのアプローチの重要な直感は、感情ラベルのコンテキスト依存の定義により、画像内で感情が現れる方法が非常に文脈に依存し、微妙であるため、感情のより正確な予測を可能にすることです。
エモギストは、各カテゴリに属する​​例の画像のクラスターを分析することにより、感情ラベルの複数の説明を事前に生成します。
テスト時に、類似性の埋め込みに基づいて説明のバージョンを取得し、分類のために高速VLMに送ります。
実験を通じて、エモギストにより、マルチラベル計測データセットでマイクロF1スコアを最大13ポイント改善し、マルチクラスFIデータセットでマクロF1で最大8ポイント改善できることが示されています。

要約(オリジナル)

In this paper, we introduce EmoGist, a training-free, in-context learning method for performing visual emotion classification with LVLMs. The key intuition of our approach is that context-dependent definition of emotion labels could allow more accurate predictions of emotions, as the ways in which emotions manifest within images are highly context dependent and nuanced. EmoGist pre-generates multiple explanations of emotion labels, by analyzing the clusters of example images belonging to each category. At test time, we retrieve a version of explanation based on embedding similarity, and feed it to a fast VLM for classification. Through our experiments, we show that EmoGist allows up to 13 points improvement in micro F1 scores with the multi-label Memotion dataset, and up to 8 points in macro F1 in the multi-class FI dataset.

arxiv情報

著者 Ronald Seoh,Dan Goldwasser
発行日 2025-05-20 17:47:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | EmoGist: Efficient In-Context Learning for Visual Emotion Understanding はコメントを受け付けていません

AKRMap: Adaptive Kernel Regression for Trustworthy Visualization of Cross-Modal Embeddings

要約

クロスモーダル埋め込みは、マルチモーダルモデルの基礎を形成します。
ただし、クロスモーダル埋め込みを解釈するための視覚化方法は、主にPCAやT-SNEなどの従来の次元削減(DR)技術に限定されています。
これらのDRメソッドは、主に単一のモダリティ内の特徴分布に焦点を当てていますが、複数のモダリティにメトリック(クリップスコアなど)を組み込むことができませんでした。この論文では、プロプロジェクションスペースのメトリックランドスケープのメートル式の退行により、クロスモーダル埋め込みメトリックを視覚化するように設計された新しいDR技術を紹介します。
具体的には、AKRMAPは、ポストプロジェクションのカーネル回帰損失に導かれる監視された投影ネットワークを構築し、投影と共同で最適化できる適応的な一般化カーネルを採用しています。
このアプローチにより、AKRMAPは複雑なメトリック分布をキャプチャする視覚化を効率的に生成し、ズームやオーバーレイなどのインタラクティブな機能をサポートして、より深い探索のためにサポートします。
定量的実験は、Akrmapがより正確で信頼できる視覚化を生成する際に既存のDRメソッドを上回ることを示しています。
さらに、テキスト間モデルのクロスモーダル埋め込みを視覚化および比較する際のAkrmapの有効性を紹介します。
コードとデモはhttps://github.com/yilinye/akrmapで入手できます。

要約(オリジナル)

Cross-modal embeddings form the foundation for multi-modal models. However, visualization methods for interpreting cross-modal embeddings have been primarily confined to traditional dimensionality reduction (DR) techniques like PCA and t-SNE. These DR methods primarily focus on feature distributions within a single modality, whilst failing to incorporate metrics (e.g., CLIPScore) across multiple modalities.This paper introduces AKRMap, a new DR technique designed to visualize cross-modal embeddings metric with enhanced accuracy by learning kernel regression of the metric landscape in the projection space. Specifically, AKRMap constructs a supervised projection network guided by a post-projection kernel regression loss, and employs adaptive generalized kernels that can be jointly optimized with the projection. This approach enables AKRMap to efficiently generate visualizations that capture complex metric distributions, while also supporting interactive features such as zoom and overlay for deeper exploration. Quantitative experiments demonstrate that AKRMap outperforms existing DR methods in generating more accurate and trustworthy visualizations. We further showcase the effectiveness of AKRMap in visualizing and comparing cross-modal embeddings for text-to-image models. Code and demo are available at https://github.com/yilinye/AKRMap.

arxiv情報

著者 Yilin Ye,Junchao Huang,Xingchen Zeng,Jiazhi Xia,Wei Zeng
発行日 2025-05-20 17:52:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.HC, cs.LG | AKRMap: Adaptive Kernel Regression for Trustworthy Visualization of Cross-Modal Embeddings はコメントを受け付けていません

UniCTokens: Boosting Personalized Understanding and Generation via Unified Concept Tokens

要約

パーソナライズされたモデルは、ユーザーが提供する概念を理解し、生成する際に顕著な成功を示しています。
ただし、既存の方法では、理解と生成のために個別の概念トークンを使用して、これらのタスクを単独で扱います。
これにより、複雑なプロンプトで画像を生成するための制限が発生する可能性があります。
たとえば、コンセプト$ \ langle bo \ rangle $を考えると、帽子の追加のテキストの説明なしに「$ \ langle bo \ rangle $ with hat」を生成します。
この種の世代は、パーソナライズされた知識駆動型の世代を呼び出します。
制限に対処するために、パーソナライズされた情報を理解と生成のために統一されたビジョン言語モデル(VLM)に効果的に統合する新しいフレームワークであるUnictokensを提示します。
Unictokensは、補完的なセマンティクスを活用して、2つのパーソナライズされたタスクを強化するために、一連の統一コンセプトトークンをトレーニングします。
さらに、3つの段階で進歩的なトレーニング戦略を提案します。ウォームアップの理解、理解から生成をブートストラップすること、両方のタスク間の相互利益を高めるための世代からの理解を深めることです。
統一されたVLMパーソナライズを定量的に評価するために、概念の理解、概念生成、および知識主導の生成を評価するための最初のベンチマークであるUnifyBenchを提示します。
UnifyBenchの実験結果は、Unictokensが、パーソナライズされた知識主導の生成における概念理解、概念生成、および最先端の結果の達成における主要な方法と比較して、競争力のあるパフォーマンスを示していることを示しています。
私たちの研究は、理解の強化が生成を改善し、生成プロセスが理解に貴重な洞察をもたらすことができることを示しています。
コードとデータセットは、\ href {https://github.com/arctanxarc/unictokens} {https://github.com/arctanxarc/unictokens}でリリースされます。

要約(オリジナル)

Personalized models have demonstrated remarkable success in understanding and generating concepts provided by users. However, existing methods use separate concept tokens for understanding and generation, treating these tasks in isolation. This may result in limitations for generating images with complex prompts. For example, given the concept $\langle bo\rangle$, generating ‘$\langle bo\rangle$ wearing its hat’ without additional textual descriptions of its hat. We call this kind of generation personalized knowledge-driven generation. To address the limitation, we present UniCTokens, a novel framework that effectively integrates personalized information into a unified vision language model (VLM) for understanding and generation. UniCTokens trains a set of unified concept tokens to leverage complementary semantics, boosting two personalized tasks. Moreover, we propose a progressive training strategy with three stages: understanding warm-up, bootstrapping generation from understanding, and deepening understanding from generation to enhance mutual benefits between both tasks. To quantitatively evaluate the unified VLM personalization, we present UnifyBench, the first benchmark for assessing concept understanding, concept generation, and knowledge-driven generation. Experimental results on UnifyBench indicate that UniCTokens shows competitive performance compared to leading methods in concept understanding, concept generation, and achieving state-of-the-art results in personalized knowledge-driven generation. Our research demonstrates that enhanced understanding improves generation, and the generation process can yield valuable insights into understanding. Our code and dataset will be released at: \href{https://github.com/arctanxarc/UniCTokens}{https://github.com/arctanxarc/UniCTokens}.

arxiv情報

著者 Ruichuan An,Sihan Yang,Renrui Zhang,Zijun Shen,Ming Lu,Gaole Dai,Hao Liang,Ziyu Guo,Shilin Yan,Yulin Luo,Bocheng Zou,Chaoqun Yang,Wentao Zhang
発行日 2025-05-20 17:56:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | UniCTokens: Boosting Personalized Understanding and Generation via Unified Concept Tokens はコメントを受け付けていません

Training-Free Watermarking for Autoregressive Image Generation

要約

目に見えない画像の透かしは、画像の所有権を保護し、視覚生成モデルの悪意のある誤用を防ぐことができます。
ただし、既存の生成透過方法は主に拡散モデル向けに設計されていますが、自己回帰画像生成モデルの透かしはほとんど露出していないままです。
自己回帰画像生成モデルのためのトレーニングフリーの透かしフレームワークであるインデックスマークを提案します。
インデックスマークは、コードブックの冗長性プロパティに触発されています。自動網目上生成インデックスを同様のインデックスに置き換えると、視覚的な違いがほとんど生じます。
インデックスマークのコアコンポーネントは、シンプルでありながら効果的なマッチテンレプレース法であり、トークンの類似性に基づいてコードブックから透かし式トークンを慎重に選択し、トークンの交換を介した透かしトークンの使用を促進し、それにより画像の品質に影響を与えることなく透かしを埋め込みます。
透かしの検証は、生成された画像の透かしトークンの割合を計算することで達成され、インデックスエンコーダーによってさらに改善されます。
さらに、作物攻撃に対する堅牢性を高めるために、補助検証スキームを導入します。
実験は、インデックスマークが画質と検証の精度の点で最先端のパフォーマンスを達成し、トリミング、ノイズ、ガウスのぼかし、ランダム消去、カラージッタ、JPEG圧縮など、さまざまな摂動に対して堅牢性を示すことを示しています。

要約(オリジナル)

Invisible image watermarking can protect image ownership and prevent malicious misuse of visual generative models. However, existing generative watermarking methods are mainly designed for diffusion models while watermarking for autoregressive image generation models remains largely underexplored. We propose IndexMark, a training-free watermarking framework for autoregressive image generation models. IndexMark is inspired by the redundancy property of the codebook: replacing autoregressively generated indices with similar indices produces negligible visual differences. The core component in IndexMark is a simple yet effective match-then-replace method, which carefully selects watermark tokens from the codebook based on token similarity, and promotes the use of watermark tokens through token replacement, thereby embedding the watermark without affecting the image quality. Watermark verification is achieved by calculating the proportion of watermark tokens in generated images, with precision further improved by an Index Encoder. Furthermore, we introduce an auxiliary validation scheme to enhance robustness against cropping attacks. Experiments demonstrate that IndexMark achieves state-of-the-art performance in terms of image quality and verification accuracy, and exhibits robustness against various perturbations, including cropping, noises, Gaussian blur, random erasing, color jittering, and JPEG compression.

arxiv情報

著者 Yu Tong,Zihao Pan,Shuai Yang,Kaiyang Zhou
発行日 2025-05-20 17:58:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CV | Training-Free Watermarking for Autoregressive Image Generation はコメントを受け付けていません

Visionary-R1: Mitigating Shortcuts in Visual Reasoning with Reinforcement Learning

要約

一般的な推論能力を学習することは、AIで長い間挑戦的な問題でした。
DeepSeek-R1などの大規模な言語モデル(LLMS)の最近の研究では、GRPOなどの強化学習手法により、事前に訓練されたLLMが単純な質問回答ペアを使用して推論機能を開発できることが示されています。
この論文では、明示的なチェーン(COT)の監督なしに、強化学習と視覚的な質問回答ペアを通じて画像データの推論を実行するために、視覚言語モデル(VLM)を訓練することを目指しています。
我々の調査結果は、単に補強学習をVLMに適用するだけで – 回答を提供する前にモデルに推論チェーンを生成するように促すことにより、モデルが簡単な質問からショートカットを開発するように導き、それにより目に見えないデータ分布全体に一般化する能力を低下させることを示しています。
ショートカット学習を緩和する鍵は、推論の前にモデルが画像を解釈するよう奨励することであると主張します。
したがって、モデルをトレーニングして、キャプションリーズシーズンの出力形式に準拠しています。最初は画像の詳細なキャプションを生成し、その後、広範な推論チェーンを構築します。
273kのコットフリーの視覚的質問ペアで訓練され、補強学習のみを使用すると、Visionary-R1という名前のモデルは、複数の視覚的推論ベンチマークでGPT-4O、Claude3.5-Sonnet、Gemini-1.5-Proなどの強力なマルチモーダルモデルよりも優れています。

要約(オリジナル)

Learning general-purpose reasoning capabilities has long been a challenging problem in AI. Recent research in large language models (LLMs), such as DeepSeek-R1, has shown that reinforcement learning techniques like GRPO can enable pre-trained LLMs to develop reasoning capabilities using simple question-answer pairs. In this paper, we aim to train visual language models (VLMs) to perform reasoning on image data through reinforcement learning and visual question-answer pairs, without any explicit chain-of-thought (CoT) supervision. Our findings indicate that simply applying reinforcement learning to a VLM — by prompting the model to produce a reasoning chain before providing an answer — can lead the model to develop shortcuts from easy questions, thereby reducing its ability to generalize across unseen data distributions. We argue that the key to mitigating shortcut learning is to encourage the model to interpret images prior to reasoning. Therefore, we train the model to adhere to a caption-reason-answer output format: initially generating a detailed caption for an image, followed by constructing an extensive reasoning chain. When trained on 273K CoT-free visual question-answer pairs and using only reinforcement learning, our model, named Visionary-R1, outperforms strong multimodal models, such as GPT-4o, Claude3.5-Sonnet, and Gemini-1.5-Pro, on multiple visual reasoning benchmarks.

arxiv情報

著者 Jiaer Xia,Yuhang Zang,Peng Gao,Yixuan Li,Kaiyang Zhou
発行日 2025-05-20 17:58:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Visionary-R1: Mitigating Shortcuts in Visual Reasoning with Reinforcement Learning はコメントを受け付けていません

Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training

要約

大規模な推論モデル(LRM)内の専門家の混合(MOE)アーキテクチャは、専門家を選択的にアクティブにして構造化された認知プロセスを促進することにより、印象的な推論能力を達成しました。
顕著な進歩にもかかわらず、既存の推論モデルは、考え過ぎや考え直しなどの認知的非効率性に苦しむことがよくあります。
これらの制限に対処するために、追加のトレーニングや複雑なヒューリスティックなしで推論パフォーマンスを向上させるように設計された、Renforcing Cognitive Experts(Rice)と呼ばれる新しい推論時間ステアリング方法論を紹介します。
正規化されたポイントワイズ相互情報(NPMI)を活用すると、「」のようなトークンを特徴とするメタレベルの推論オペレーションを調整する「認知専門家」と呼ばれる専門の専門家を体系的に特定します。
厳格な定量的および科学的推論ベンチマークに関する主要なMOEベースのLRMS(DeepSeek-R1およびQWEN3-235B)との経験的評価は、推論の精度、認知効率、およびクロスドメインの一般化の顕著で一貫した改善を示しています。
重要なことに、私たちの軽量アプローチは、モデルの一般的な指導に従うスキルを維持しながら、迅速な設計やデコード制約など、一般的な推論姿勢の手法を大幅に上回っています。
これらの結果は、認知の専門家を、高度な推論モデル内で認知効率を高めるための有望で実用的で解釈可能な方向として強化することを強調しています。

要約(オリジナル)

Mixture-of-Experts (MoE) architectures within Large Reasoning Models (LRMs) have achieved impressive reasoning capabilities by selectively activating experts to facilitate structured cognitive processes. Despite notable advances, existing reasoning models often suffer from cognitive inefficiencies like overthinking and underthinking. To address these limitations, we introduce a novel inference-time steering methodology called Reinforcing Cognitive Experts (RICE), designed to improve reasoning performance without additional training or complex heuristics. Leveraging normalized Pointwise Mutual Information (nPMI), we systematically identify specialized experts, termed ”cognitive experts” that orchestrate meta-level reasoning operations characterized by tokens like ””. Empirical evaluations with leading MoE-based LRMs (DeepSeek-R1 and Qwen3-235B) on rigorous quantitative and scientific reasoning benchmarks demonstrate noticeable and consistent improvements in reasoning accuracy, cognitive efficiency, and cross-domain generalization. Crucially, our lightweight approach substantially outperforms prevalent reasoning-steering techniques, such as prompt design and decoding constraints, while preserving the model’s general instruction-following skills. These results highlight reinforcing cognitive experts as a promising, practical, and interpretable direction to enhance cognitive efficiency within advanced reasoning models.

arxiv情報

著者 Mengru Wang,Xingyu Chen,Yue Wang,Zhiwei He,Jiahao Xu,Tian Liang,Qiuzhi Liu,Yunzhi Yao,Wenxuan Wang,Ruotian Ma,Haitao Mi,Ningyu Zhang,Zhaopeng Tu,Xiaolong Li,Dong Yu
発行日 2025-05-20 17:59:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.IR, cs.LG | Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training はコメントを受け付けていません

UniGen: Enhanced Training & Test-Time Strategies for Unified Multimodal Understanding and Generation

要約

画像の理解と生成が可能な統一されたマルチモーダル大手言語モデル(MLLM)であるUnigenを紹介します。
私たちは、マルチステージの事前トレーニング、監視付き微調整、直接優先最適化など、データ中心の観点からユニゲンの完全なトレーニングパイプラインを研究します。
さらに重要なことは、テスト時間スケーリングのための新しい考え方のチェーン検証(COT-V)戦略を提案することです。
具体的には、COT-Vを使用すると、Unigenはテスト時に画像ジェネレーターと検証剤の両方として機能し、テキストプロンプトとその生成された画像間のセマンティックアライメントをステップバイステップCOTマナーで評価します。
すべての段階でオープンソースのデータセットで完全に訓練されたUnigenは、さまざまな画像理解と世代のベンチマークで最新のパフォーマンスを実現し、Genevalで0.78、DPGベンチで85.19の最終スコアがあります。
広範なアブレーション研究を通じて、私たちの研究は実用的な洞察を提供し、統一されたMLLMを構築するという完全なライフサイクルにおける重要な課題に取り組み、将来の研究に意味のある方向性を提供します。

要約(オリジナル)

We introduce UniGen, a unified multimodal large language model (MLLM) capable of image understanding and generation. We study the full training pipeline of UniGen from a data-centric perspective, including multi-stage pre-training, supervised fine-tuning, and direct preference optimization. More importantly, we propose a new Chain-of-Thought Verification (CoT-V) strategy for test-time scaling, which significantly boosts UniGen’s image generation quality using a simple Best-of-N test-time strategy. Specifically, CoT-V enables UniGen to act as both image generator and verifier at test time, assessing the semantic alignment between a text prompt and its generated image in a step-by-step CoT manner. Trained entirely on open-source datasets across all stages, UniGen achieves state-of-the-art performance on a range of image understanding and generation benchmarks, with a final score of 0.78 on GenEval and 85.19 on DPG-Bench. Through extensive ablation studies, our work provides actionable insights and addresses key challenges in the full life cycle of building unified MLLMs, contributing meaningful directions to the future research.

arxiv情報

著者 Rui Tian,Mingfei Gao,Mingze Xu,Jiaming Hu,Jiasen Lu,Zuxuan Wu,Yinfei Yang,Afshin Dehghan
発行日 2025-05-20 17:59:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | UniGen: Enhanced Training & Test-Time Strategies for Unified Multimodal Understanding and Generation はコメントを受け付けていません