SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding

要約

マルチモーダル大手言語モデル(MLLM)は、問題を解決するタスクで印象的な成功を収めていますが、空間的理解のための能力はあまり探求されていません。
この作業は重要な質問を調査しています。既存のMLLMは3D空間的認識と理解能力を持っていますか?
具体的には、このペーパーで次の貢献をします。(i)VGBenchを導入します。VGBenchは、視覚的なジオメトリの知覚、たとえばカメラのポーズやモーション推定のMLLMを評価するために特別に設計されたベンチマークを紹介します。
(ii)これまでで最も包括的で多様なマルチモーダル空間理解ベンチマークであるSpatialScoreを提案し、VGBenchを他の11の既存のデータセットからの関連データと統合します。
このベンチマークは、さまざまな空間理解タスク、モダリティ、およびQA形式の28Kサンプルと、慎重にキュレーションされた挑戦的なサブセット、SpatialScoreハードで構成されています。
(iii)空間的理解のための9つの特殊なツールを組み込んだ新しいマルチエージェントシステムであるSpatialagentを開発し、計画通知とReactの推論パラダイムの両方をサポートします。
(iv)空間的推論における持続的な課題を明らかにする一方で、空間的な推論において永続的な課題を明らかにするために広範な評価を実施します。
SpatialScoreは貴重な洞察を提供し、MLLMの次の進化のための厳格なベンチマークとして機能すると考えています。

要約(オリジナル)

Multimodal large language models (MLLMs) have achieved impressive success in question-answering tasks, yet their capabilities for spatial understanding are less explored. This work investigates a critical question: do existing MLLMs possess 3D spatial perception and understanding abilities? Concretely, we make the following contributions in this paper: (i) we introduce VGBench, a benchmark specifically designed to assess MLLMs for visual geometry perception, e.g., camera pose and motion estimation; (ii) we propose SpatialScore, the most comprehensive and diverse multimodal spatial understanding benchmark to date, integrating VGBench with relevant data from the other 11 existing datasets. This benchmark comprises 28K samples across various spatial understanding tasks, modalities, and QA formats, along with a carefully curated challenging subset, SpatialScore-Hard; (iii) we develop SpatialAgent, a novel multi-agent system incorporating 9 specialized tools for spatial understanding, supporting both Plan-Execute and ReAct reasoning paradigms; (iv) we conduct extensive evaluations to reveal persistent challenges in spatial reasoning while demonstrating the effectiveness of SpatialAgent. We believe SpatialScore will offer valuable insights and serve as a rigorous benchmark for the next evolution of MLLMs.

arxiv情報

著者 Haoning Wu,Xiao Huang,Yaohui Chen,Ya Zhang,Yanfeng Wang,Weidi Xie
発行日 2025-05-22 17:59:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding はコメントを受け付けていません

When Are Concepts Erased From Diffusion Models?

要約

モデルが特定の概念を生成するのを選択的に防止する能力である概念消去は、関心の高まりを引き付け、課題に対処するためにさまざまなアプローチが出現しています。
ただし、これらの方法がターゲットの概念をどの程度徹底的に消去するかは不明のままです。
拡散モデルにおける消去メカニズムの2つの概念モデルを提案することから始めます。(i)ターゲット概念を生成する可能性を減らし、(ii)モデルの内部ガイダンスメカニズムに干渉する。
概念がモデルから真に消去されたかどうかを徹底的に評価するために、一連の独立した評価を紹介します。
私たちの評価フレームワークには、敵対的な攻撃、新しい調査手法、および消去された概念の代わりにモデルの代替世代の分析が含まれます。
我々の結果は、副作用を最小限に抑え、敵対的なプロンプトへの堅牢性を維持することとの緊張に光を当てました。
概して、私たちの研究は、拡散モデルにおける消去のための包括的な評価の重要性を強調しています。

要約(オリジナル)

Concept erasure, the ability to selectively prevent a model from generating specific concepts, has attracted growing interest, with various approaches emerging to address the challenge. However, it remains unclear how thoroughly these methods erase the target concept. We begin by proposing two conceptual models for the erasure mechanism in diffusion models: (i) reducing the likelihood of generating the target concept, and (ii) interfering with the model’s internal guidance mechanisms. To thoroughly assess whether a concept has been truly erased from the model, we introduce a suite of independent evaluations. Our evaluation framework includes adversarial attacks, novel probing techniques, and analysis of the model’s alternative generations in place of the erased concept. Our results shed light on the tension between minimizing side effects and maintaining robustness to adversarial prompts. Broadly, our work underlines the importance of comprehensive evaluation for erasure in diffusion models.

arxiv情報

著者 Kevin Lu,Nicky Kriplani,Rohit Gandikota,Minh Pham,David Bau,Chinmay Hegde,Niv Cohen
発行日 2025-05-22 17:59:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | When Are Concepts Erased From Diffusion Models? はコメントを受け付けていません

Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models

要約

マルチモーダルの大手言語モデル(MLLM)は視覚的なタスクで急速に進歩していますが、それらの空間的理解は単一の画像に限定されたままであり、マルチフレームの推論を必要とするロボットやその他の現実世界のアプリケーションに適していません。
この論文では、深さの知覚、視覚的対応、および動的知覚を統合することにより、MLLMに堅牢なマルチフレーム空間理解を装備するフレームワークを提案します。
私たちのアプローチの中心は、多様な3Dおよび4Dシーンにまたがる2700万を超えるサンプルの新規で大規模なコレクションであるMultispa Datasetです。
MultiSPAに加えて、均一なメトリックの下でさまざまな空間タスクをテストする包括的なベンチマークを導入します。
結果として得られるモデルであるMulti-SpatialMllmは、ベースラインと独自のシステムに対して大幅な利益を達成し、スケーラブルで一般化可能なマルチフレーム推論を実証します。
さらに、挑戦的なシナリオにおけるマルチタスクの利点と緊急機能の早期兆候を観察し、モデルがロボット工学のマルチフレーム報酬アノテーターとしてどのように機能するかを紹介します。

要約(オリジナル)

Multi-modal large language models (MLLMs) have rapidly advanced in visual tasks, yet their spatial understanding remains limited to single images, leaving them ill-suited for robotics and other real-world applications that require multi-frame reasoning. In this paper, we propose a framework to equip MLLMs with robust multi-frame spatial understanding by integrating depth perception, visual correspondence, and dynamic perception. Central to our approach is the MultiSPA dataset, a novel, large-scale collection of more than 27 million samples spanning diverse 3D and 4D scenes. Alongside MultiSPA, we introduce a comprehensive benchmark that tests a wide spectrum of spatial tasks under uniform metrics. Our resulting model, Multi-SpatialMLLM, achieves significant gains over baselines and proprietary systems, demonstrating scalable, generalizable multi-frame reasoning. We further observe multi-task benefits and early indications of emergent capabilities in challenging scenarios, and showcase how our model can serve as a multi-frame reward annotator for robotics.

arxiv情報

著者 Runsen Xu,Weiyao Wang,Hao Tang,Xingyu Chen,Xiaodong Wang,Fu-Jen Chu,Dahua Lin,Matt Feiszli,Kevin J. Liang
発行日 2025-05-22 17:59:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Multi-SpatialMLLM: Multi-Frame Spatial Understanding with Multi-Modal Large Language Models はコメントを受け付けていません

Interactive Post-Training for Vision-Language-Action Models

要約

リップVLAを紹介します。これは、スパースバイナリの成功報酬のみを使用して、微調整された視覚障害(VLA)モデルを微調整するシンプルでスケーラブルな補強協定ベースのインタラクティブポストトレーニングパラダイムを紹介します。
既存のVLAトレーニングパイプラインは、オフラインの専門家のデモデータと監視された模倣に大きく依存しており、低データの体制下で新しいタスクや環境に適応する能力を制限しています。
RIPT-VLAは、ダイナミックロールアウトサンプリングと休暇1アウトアドバンテージの推定に基づいて、安定したポリシー最適化アルゴリズムでインタラクティブなトレーニングを可能にすることにより、これに対処します。
RIPT-VLAには次の特性があります。
まず、さまざまなVLAモデルに適用され、軽量クエストモデルが21.2%、7B OpenVLA-Offモデルが前例のない97.5%の成功率に改善されます。
第二に、それは計算上効率的でデータ効率が高くなっています。デモンストレーションは1つだけで、RIPT-VLAは、15回の反復以内に97%の成功率で実行不可能なSFTモデル(4%)を成功させることができます。
さらに、RIPT-VLAによって学んだポリシーは、さまざまなタスクやシナリオに一般化され、初期状態のコンテキストに堅牢であることを実証します。
これらの結果は、最小限の監督を通じて、トレーニング後のVLAモデルの実用的かつ効果的なパラダイムとしてRIPT-VLAを強調しています。

要約(オリジナル)

We introduce RIPT-VLA, a simple and scalable reinforcement-learning-based interactive post-training paradigm that fine-tunes pretrained Vision-Language-Action (VLA) models using only sparse binary success rewards. Existing VLA training pipelines rely heavily on offline expert demonstration data and supervised imitation, limiting their ability to adapt to new tasks and environments under low-data regimes. RIPT-VLA addresses this by enabling interactive post-training with a stable policy optimization algorithm based on dynamic rollout sampling and leave-one-out advantage estimation. RIPT-VLA has the following characteristics. First, it applies to various VLA models, resulting in an improvement on the lightweight QueST model by 21.2%, and the 7B OpenVLA-OFT model to an unprecedented 97.5% success rate. Second, it is computationally efficient and data-efficient: with only one demonstration, RIPT-VLA enables an unworkable SFT model (4%) to succeed with a 97% success rate within 15 iterations. Furthermore, we demonstrate that the policy learned by RIPT-VLA generalizes across different tasks and scenarios and is robust to the initial state context. These results highlight RIPT-VLA as a practical and effective paradigm for post-training VLA models through minimal supervision.

arxiv情報

著者 Shuhan Tan,Kairan Dou,Yue Zhao,Philipp Krähenbühl
発行日 2025-05-22 17:59:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Interactive Post-Training for Vision-Language-Action Models はコメントを受け付けていません

Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO

要約

最近の進歩は、大規模な言語モデル(LLM)の考え方(COT)の推論能力を高める上で、強化学習(RL)の重要な役割を強調しています。
2つの顕著なRLアルゴリズム、直接選好最適化(DPO)とグループ相対ポリシー最適化(GRPO)は、これらの開発の中心であり、異なる長所と短所を示しています。
また、シーケンシャルコット推論プロセスとして解釈可能な自己回帰画像生成は、LLMベースのCOT推論とは異なるユニークな課題を提示します。
これらは、テキストイメージの一貫性を確保し、画像の美的品質を改善し、より単純なルールベースの報酬に依存するのではなく、洗練された報酬モデルを設計することを網羅しています。
最近の努力によりRLがこのドメインに拡大されていますが、これらの探索は通常、ドメイン固有の課題とさまざまなRL戦略の特性の詳細な分析を欠いています。
このギャップを埋めるために、自己回帰画像生成におけるGRPOおよびDPOアルゴリズムの最初の包括的な調査を提供し、ドメイン内のパフォーマンスとドメイン外の一般化を評価しながら、それぞれの能力に対する異なる報酬モデルの影響を精査します。
我々の調査結果は、GRPOとDPOが明確な利点を示し、決定的には、より強力な内因性一般化機能を有するモデルに報いることが、適用されたRLアルゴリズムの一般化の可能性を潜在的に強化することを明らかにしています。
さらに、3つの一般的なスケーリング戦略を体系的に調査して、ドメイン内とドメイン外の習熟度の両方を強化し、各パラダイムの効率的なスケーリングパフォーマンスに関するユニークな洞察を導き出します。
私たちの研究が、より効果的なRLアルゴリズムを開発するための将来の作業を刺激するための新しいパスを舗装し、自己回帰画像生成の領域で堅牢なCOT推論を達成することを願っています。
コードはhttps://github.com/ziyuguo99/image-generation-cotでリリースされます

要約(オリジナル)

Recent advancements underscore the significant role of Reinforcement Learning (RL) in enhancing the Chain-of-Thought (CoT) reasoning capabilities of large language models (LLMs). Two prominent RL algorithms, Direct Preference Optimization (DPO) and Group Relative Policy Optimization (GRPO), are central to these developments, showcasing different pros and cons. Autoregressive image generation, also interpretable as a sequential CoT reasoning process, presents unique challenges distinct from LLM-based CoT reasoning. These encompass ensuring text-image consistency, improving image aesthetic quality, and designing sophisticated reward models, rather than relying on simpler rule-based rewards. While recent efforts have extended RL to this domain, these explorations typically lack an in-depth analysis of the domain-specific challenges and the characteristics of different RL strategies. To bridge this gap, we provide the first comprehensive investigation of the GRPO and DPO algorithms in autoregressive image generation, evaluating their in-domain performance and out-of-domain generalization, while scrutinizing the impact of different reward models on their respective capabilities. Our findings reveal that GRPO and DPO exhibit distinct advantages, and crucially, that reward models possessing stronger intrinsic generalization capabilities potentially enhance the generalization potential of the applied RL algorithms. Furthermore, we systematically explore three prevalent scaling strategies to enhance both their in-domain and out-of-domain proficiency, deriving unique insights into efficiently scaling performance for each paradigm. We hope our study paves a new path for inspiring future work on developing more effective RL algorithms to achieve robust CoT reasoning in the realm of autoregressive image generation. Code is released at https://github.com/ZiyuGuo99/Image-Generation-CoT

arxiv情報

著者 Chengzhuo Tong,Ziyu Guo,Renrui Zhang,Wenyu Shan,Xinyu Wei,Zhenghao Xing,Hongsheng Li,Pheng-Ann Heng
発行日 2025-05-22 17:59:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO はコメントを受け付けていません

CrossLMM: Decoupling Long Video Sequences from LMMs via Dual Cross-Attention Mechanisms

要約

大規模なマルチモーダルモデル(LMMS)の出現により、多様なデータモダリティ(画像やビデオなど)を処理および解釈するために、大規模な言語モデル(LLM)が大幅に強化されています。
ただし、特に長いビデオシーケンスで入力の複雑さが増加すると、必要なトークンの数が大幅に増加し、2次計算コストにつながります。
これにより、LMMSでのビデオトークンの効率的な圧縮が行われ、緊急の研究課題であるパフォーマンスの完全性を維持しています。
このホワイトペーパーでは、Crosslmmを紹介し、デュアルクロスアテンションメカニズムを介してLMMSから長いビデオシーケンスを切り離し、パフォーマンスの低下で視覚的なトークン量を大幅に減らします。
具体的には、プーリング方法論を通じて、前処理された視覚エンコーダからの大幅なトークン削減を最初に実装します。
次に、LLM層内で、視覚から視覚的な交差に関するメカニズムを採用し、プールされた視覚トークンが元の視覚トークンセットに対するクエリとして機能します。
このモジュールは、細粒の情報忠実度を保持しながら、より効率的なトークン利用を可能にします。
さらに、テキストから視覚的な交差メカニズムを導入します。テキストトークンは、テキストトークンの視覚的理解を豊かにする元の視覚トークンとの相互作用によって強化されます。
包括的な経験的評価は、大幅に少ない計算リソースを利用しているにもかかわらず、私たちのアプローチが多様なビデオベースのLMMベンチマーク全体で同等または優れたパフォーマンスを達成することを示しています。

要約(オリジナル)

The advent of Large Multimodal Models (LMMs) has significantly enhanced Large Language Models (LLMs) to process and interpret diverse data modalities (e.g., image and video). However, as input complexity increases, particularly with long video sequences, the number of required tokens has grown significantly, leading to quadratically computational costs. This has made the efficient compression of video tokens in LMMs, while maintaining performance integrity, a pressing research challenge. In this paper, we introduce CrossLMM, decoupling long video sequences from LMMs via a dual cross-attention mechanism, which substantially reduces visual token quantity with minimal performance degradation. Specifically, we first implement a significant token reduction from pretrained visual encoders through a pooling methodology. Then, within LLM layers, we employ a visual-to-visual cross-attention mechanism, wherein the pooled visual tokens function as queries against the original visual token set. This module enables more efficient token utilization while retaining fine-grained informational fidelity. In addition, we introduce a text-to-visual cross-attention mechanism, for which the text tokens are enhanced through interaction with the original visual tokens, enriching the visual comprehension of the text tokens. Comprehensive empirical evaluation demonstrates that our approach achieves comparable or superior performance across diverse video-based LMM benchmarks, despite utilizing substantially fewer computational resources.

arxiv情報

著者 Shilin Yan,Jiaming Han,Joey Tsai,Hongwei Xue,Rongyao Fang,Lingyi Hong,Ziyu Guo,Ray Zhang
発行日 2025-05-22 17:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CrossLMM: Decoupling Long Video Sequences from LMMs via Dual Cross-Attention Mechanisms はコメントを受け付けていません

Let Androids Dream of Electric Sheep: A Human-like Image Implication Understanding and Reasoning Framework

要約

既存のモデルは、視覚コンテンツに組み込まれた微妙な文化的、感情的、文脈的意味を把握するのに苦労しているため、画像の比phor的理解はAIシステムにとって重要な課題です。
マルチモーダルの大手言語モデル(MLLM)は基本的な視覚的質問の回答(VQA)タスクに優れていますが、画像の意味合いの基本的な制限と格闘しています。
人間の認知プロセスに触発されて、私たちは、イメージの含意理解と推論のための斬新なフレームワークであるLet Androids Dream(LAD)を提案します。
LADは、3段階のフレームワークを介してコンテキストが欠落しています。(1)知覚:視覚情報をリッチおよびマルチレベルのテキスト表現に変換する、(2)検索:クロスドメインの知識を検索および統合して曖昧さを解決し、(3)推論:明示的な推論によるコンテキスト整列画像の含意を生成します。
軽量のGPT-4O-MINIモデルを使用した当社のフレームワークは、英語の画像の含意ベンチマークで15+ MLLMと比較してSOTAパフォーマンスを実現し、中国のベンチマークで大幅に改善し、多重選択の質問(MCQ)のGPT-4Oモデルに匹敵し、オープンスティールの質問(OSQ)で36.7%を超えます。
さらに、私たちの作品は、AIが画像の意味をより効果的に解釈する方法についての新しい洞察を提供し、視界の推論と人間との相互作用の分野を進めています。
当社のプロジェクトは、https://github.com/ming-zch/let-androids-dream-of-electric-sheepで公開されています。

要約(オリジナル)

Metaphorical comprehension in images remains a critical challenge for AI systems, as existing models struggle to grasp the nuanced cultural, emotional, and contextual implications embedded in visual content. While multimodal large language models (MLLMs) excel in basic Visual Question Answer (VQA) tasks, they struggle with a fundamental limitation on image implication tasks: contextual gaps that obscure the relationships between different visual elements and their abstract meanings. Inspired by the human cognitive process, we propose Let Androids Dream (LAD), a novel framework for image implication understanding and reasoning. LAD addresses contextual missing through the three-stage framework: (1) Perception: converting visual information into rich and multi-level textual representations, (2) Search: iteratively searching and integrating cross-domain knowledge to resolve ambiguity, and (3) Reasoning: generating context-alignment image implication via explicit reasoning. Our framework with the lightweight GPT-4o-mini model achieves SOTA performance compared to 15+ MLLMs on English image implication benchmark and a huge improvement on Chinese benchmark, performing comparable with the GPT-4o model on Multiple-Choice Question (MCQ) and outperforms 36.7% on Open-Style Question (OSQ). Additionally, our work provides new insights into how AI can more effectively interpret image implications, advancing the field of vision-language reasoning and human-AI interaction. Our project is publicly available at https://github.com/MING-ZCH/Let-Androids-Dream-of-Electric-Sheep.

arxiv情報

著者 Chenhao Zhang,Yazhe Niu
発行日 2025-05-22 17:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.CY | Let Androids Dream of Electric Sheep: A Human-like Image Implication Understanding and Reasoning Framework はコメントを受け付けていません

SophiaVL-R1: Reinforcing MLLMs Reasoning with Thinking Reward

要約

最近の進歩は、結果報酬を備えたルールベースの強化学習(RL)を通じて、マルチモーダル大手言語モデル(MLLM)の強力な推論能力を引き出すことに成功しています。
ただし、このパラダイムには通常、最終的な結果につながる思考プロセスに関する監督が欠けています。その結果、モデルは一般化能力を妨げる可能性のある最適な推論戦略を学ぶことができます。
これに照らして、このパラダイムの思考プロセスの報酬信号を追加する試みとして、Sophiavl-R1を提案します。
これを達成するために、まず、思考プロセス全体の品質を評価する思考報酬モデルを訓練します。
Hackingの報酬のために特定のサンプルに対して思考報酬が信頼できない可能性があることを考えると、トレーニング中の思考報酬に信頼性の重みを割り当てるTrust-Grpoメソッドを提案します。
この重みは、正解と誤った答えにつながる応答の思考報酬の比較に基づいて計算され、潜在的に信頼できない思考報酬の影響を軽減するのに役立ちます。
さらに、時間の経過とともに思考報酬を徐々に削減するアニーリングトレーニング戦略を設計し、モデルが後のトレーニング段階で正確なルールベースの結果報酬にもっと依存できるようにします。
実験は、Sophiavl-R1がさまざまなベンチマーク(Mathvisita、MMMUなど)で一連の推論MLLMを上回り、強力な推論と一般化能力を示していることを示しています。
特に、Sophiavl-R1-7Bは、ほとんどのベンチマークでLlava-onevision-72bを上回ることもありますが、後者は10倍のパラメーターを持っています。
すべてのコード、モデル、およびデータセットは、https://github.com/kxfan2002/sophiavl-r1で公開されています。

要約(オリジナル)

Recent advances have shown success in eliciting strong reasoning abilities in multimodal large language models (MLLMs) through rule-based reinforcement learning (RL) with outcome rewards. However, this paradigm typically lacks supervision over the thinking process leading to the final outcome.As a result, the model may learn sub-optimal reasoning strategies, which can hinder its generalization ability. In light of this, we propose SophiaVL-R1, as an attempt to add reward signals for the thinking process in this paradigm. To achieve this, we first train a thinking reward model that evaluates the quality of the entire thinking process. Given that the thinking reward may be unreliable for certain samples due to reward hacking, we propose the Trust-GRPO method, which assigns a trustworthiness weight to the thinking reward during training. This weight is computed based on the thinking reward comparison of responses leading to correct answers versus incorrect answers, helping to mitigate the impact of potentially unreliable thinking rewards. Moreover, we design an annealing training strategy that gradually reduces the thinking reward over time, allowing the model to rely more on the accurate rule-based outcome reward in later training stages. Experiments show that our SophiaVL-R1 surpasses a series of reasoning MLLMs on various benchmarks (e.g., MathVisita, MMMU), demonstrating strong reasoning and generalization capabilities. Notably, our SophiaVL-R1-7B even outperforms LLaVA-OneVision-72B on most benchmarks, despite the latter having 10 times more parameters. All code, models, and datasets are made publicly available at https://github.com/kxfan2002/SophiaVL-R1.

arxiv情報

著者 Kaixuan Fan,Kaituo Feng,Haoming Lyu,Dongzhan Zhou,Xiangyu Yue
発行日 2025-05-22 17:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SophiaVL-R1: Reinforcing MLLMs Reasoning with Thinking Reward はコメントを受け付けていません

GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning

要約

視覚生成モデルは、テキストプロンプトから現実的な画像を作成する際に顕著な進歩を遂げましたが、正確な空間的関係と属性を持つ複数のオブジェクトを指定する複雑なプロンプトと闘っています。
このようなプロンプトを効果的に処理するには、セマンティックコンテンツと空間レイアウトに関する明示的な推論が必要です。
視覚生成における意味空間的推論を強化するために強化学習を適用するフレームワークであるGOT-R1を紹介します。
GOT-R1は、世代を込めて考えられたチェーンアプローチに基づいて、モデルが慎重に設計された強化学習を通じて、事前定義されたテンプレートを超えた効果的な推論戦略を自律的に発見できるようにします。
これを達成するために、MLLMを活用して推論プロセスと最終出力の両方を評価するデュアルステージの多次元報酬フレームワークを提案し、世代全体のパイプライン全体で効果的な監督を可能にします。
報酬システムは、統一されたアプローチでセマンティックアライメント、空間精度、視覚品質を評価します。
実験結果は、特に正確な空間的関係と属性結合を含む組成タスクにおいて、T2Iコンピベンチベンチマークの大幅な改善を示しています。
GoT-R1は、洗練された推論機能を視覚生成ドメインに正常に転送することにより、画像生成の最先端の最先端を進めます。
将来の研究を促進するために、https://github.com/gogoduan/got-r1で公開されているコードと事前処理モデルを公開しています。

要約(オリジナル)

Visual generation models have made remarkable progress in creating realistic images from text prompts, yet struggle with complex prompts that specify multiple objects with precise spatial relationships and attributes. Effective handling of such prompts requires explicit reasoning about the semantic content and spatial layout. We present GoT-R1, a framework that applies reinforcement learning to enhance semantic-spatial reasoning in visual generation. Building upon the Generation Chain-of-Thought approach, GoT-R1 enables models to autonomously discover effective reasoning strategies beyond predefined templates through carefully designed reinforcement learning. To achieve this, we propose a dual-stage multi-dimensional reward framework that leverages MLLMs to evaluate both the reasoning process and final output, enabling effective supervision across the entire generation pipeline. The reward system assesses semantic alignment, spatial accuracy, and visual quality in a unified approach. Experimental results demonstrate significant improvements on T2I-CompBench benchmark, particularly in compositional tasks involving precise spatial relationships and attribute binding. GoT-R1 advances the state-of-the-art in image generation by successfully transferring sophisticated reasoning capabilities to the visual generation domain. To facilitate future research, we make our code and pretrained models publicly available at https://github.com/gogoduan/GoT-R1.

arxiv情報

著者 Chengqi Duan,Rongyao Fang,Yuqing Wang,Kun Wang,Linjiang Huang,Xingyu Zeng,Hongsheng Li,Xihui Liu
発行日 2025-05-22 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning はコメントを受け付けていません

ARB: A Comprehensive Arabic Multimodal Reasoning Benchmark

要約

大規模なマルチモーダルモデル(LMM)がより能力が高まるにつれて、最終出力とともに推論プロセスを評価することに関心が高まっています。
ただし、ほとんどのベンチマークは、アラビア語などの豊かな言語的および文化的文脈を持つ言語を見下ろす英語に焦点を当てています。
このギャップに対処するために、アラビア語のマルチモーダル推論ベンチマーク(ARB)を紹介します。これは、テキストおよび視覚モダリティの両方でアラビア語の段階的な推論を評価するために設計された最初のベンチマークです。
ARBは、視覚的推論、文書の理解、OCR、科学分析、文化的解釈など、11の多様なドメインにまたがっています。
これは、5,119のヒューマンキュレーションの推論ステップと対応するアクションとペアになった1,356のマルチモーダルサンプルで構成されています。
私たちは、12の最先端のオープンソースLMMと閉鎖LMMを評価し、一貫性、忠実さ、文化的基盤に持続的な課題を発見しました。
ARBは、過小評価されている言語でマルチモーダル推論を診断するための構造化されたフレームワークを提供し、包括的、透明性、文化的に認識しているAIシステムへの重要なステップをマークします。
将来の研究と再現性をサポートするために、ベンチマーク、ルーブリック、および評価スーツをリリースします。
https://github.com/mbzuai-oryx/arbで利用可能なコード

要約(オリジナル)

As Large Multimodal Models (LMMs) become more capable, there is growing interest in evaluating their reasoning processes alongside their final outputs. However, most benchmarks remain focused on English, overlooking languages with rich linguistic and cultural contexts, such as Arabic. To address this gap, we introduce the Comprehensive Arabic Multimodal Reasoning Benchmark (ARB), the first benchmark designed to evaluate step-by-step reasoning in Arabic across both textual and visual modalities. ARB spans 11 diverse domains, including visual reasoning, document understanding, OCR, scientific analysis, and cultural interpretation. It comprises 1,356 multimodal samples paired with 5,119 human-curated reasoning steps and corresponding actions. We evaluated 12 state-of-the-art open- and closed-source LMMs and found persistent challenges in coherence, faithfulness, and cultural grounding. ARB offers a structured framework for diagnosing multimodal reasoning in underrepresented languages and marks a critical step toward inclusive, transparent, and culturally aware AI systems. We release the benchmark, rubric, and evaluation suit to support future research and reproducibility. Code available at: https://github.com/mbzuai-oryx/ARB

arxiv情報

著者 Sara Ghaboura,Ketan More,Wafa Alghallabi,Omkar Thawakar,Jorma Laaksonen,Hisham Cholakkal,Salman Khan,Rao Muhammad Anwer
発行日 2025-05-22 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ARB: A Comprehensive Arabic Multimodal Reasoning Benchmark はコメントを受け付けていません