Image Editing As Programs with Diffusion Models

要約

拡散モデルはテキストからイメージの生成で顕著な成功を収めていますが、命令主導の画像編集で大きな課題に遭遇します。
私たちの研究は重要な課題を強調しています。これらのモデルは、実質的なレイアウトの変更を伴う構造的に一貫性のない編集と特に闘っています。
このギャップを緩和するために、拡散トランス(DIT)アーキテクチャに基づいて構築された統一された画像編集フレームワークであるImage Editing As Programs(IEAP)を紹介します。
IEAPは、そのコアで、還元主義のレンズを介して教育編集にアプローチし、複雑な編集命令を原子操作のシーケンスに分解します。
各操作は、同じDITバックボーンを共有する軽量アダプターを介して実装され、特定のタイプの編集に特化しています。
ビジョン言語モデル(VLM)ベースのエージェントによってプログラムされたこれらの操作は、arbitrary意的かつ構造的に矛盾する変換をサポートします。
この方法での編集をモジュール化およびシーケンスすることにより、IEAPは、単純な調整から実質的な構造的変化まで、幅広い編集タスク全体に堅牢に一般化されます。
広範な実験は、IEAPがさまざまな編集シナリオにわたって標準ベンチマークの最先端の方法を大幅に上回ることを示しています。
これらの評価では、私たちのフレームワークは、特に複雑でマルチステップの指示のために、優れた精度とセマンティックの忠実度を提供します。
コードはhttps://github.com/yujiahu1109/ieapで入手できます。

要約(オリジナル)

While diffusion models have achieved remarkable success in text-to-image generation, they encounter significant challenges with instruction-driven image editing. Our research highlights a key challenge: these models particularly struggle with structurally inconsistent edits that involve substantial layout changes. To mitigate this gap, we introduce Image Editing As Programs (IEAP), a unified image editing framework built upon the Diffusion Transformer (DiT) architecture. At its core, IEAP approaches instructional editing through a reductionist lens, decomposing complex editing instructions into sequences of atomic operations. Each operation is implemented via a lightweight adapter sharing the same DiT backbone and is specialized for a specific type of edit. Programmed by a vision-language model (VLM)-based agent, these operations collaboratively support arbitrary and structurally inconsistent transformations. By modularizing and sequencing edits in this way, IEAP generalizes robustly across a wide range of editing tasks, from simple adjustments to substantial structural changes. Extensive experiments demonstrate that IEAP significantly outperforms state-of-the-art methods on standard benchmarks across various editing scenarios. In these evaluations, our framework delivers superior accuracy and semantic fidelity, particularly for complex, multi-step instructions. Codes are available at https://github.com/YujiaHu1109/IEAP.

arxiv情報

著者 Yujia Hu,Songhua Liu,Zhenxiong Tan,Xingyi Yang,Xinchao Wang
発行日 2025-06-04 16:57:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Image Editing As Programs with Diffusion Models はコメントを受け付けていません

DualMap: Online Open-Vocabulary Semantic Mapping for Natural Language Navigation in Dynamic Changing Scenes

要約

ロボットが自然言語のクエリを通じて動的に変化する環境を理解し、ナビゲートできるようにするオンラインのオープンボキャブラリーマッピングシステムであるDualMapを紹介します。
デュアルマップは、変化する環境に対する効率的なセマンティックマッピングと適応性のために設計されており、実際のロボットナビゲーションアプリケーションの重要な要件を満たしています。
提案されているハイブリッドセグメンテーションフロントエンドとオブジェクトレベルのステータスチェックは、以前の方法で必要な費用のかかる3Dオブジェクトのマージを排除し、効率的なオンラインシーンマッピングを可能にします。
デュアルマップ表現は、高レベルの候補選択用のグローバルな抽象マップと、環境の動的な変化を効果的に管理および更新するために、正確な目標を達成するためのローカルコンクリートマップと組み合わせます。
シミュレーションと現実世界の両方のシナリオの両方で広範な実験を通じて、3Dオープンボキャブラリーセグメンテーション、効率的なシーンマッピング、およびオンライン言語誘導ナビゲーションの最先端のパフォーマンスを示します。

要約(オリジナル)

We introduce DualMap, an online open-vocabulary mapping system that enables robots to understand and navigate dynamically changing environments through natural language queries. Designed for efficient semantic mapping and adaptability to changing environments, DualMap meets the essential requirements for real-world robot navigation applications. Our proposed hybrid segmentation frontend and object-level status check eliminate the costly 3D object merging required by prior methods, enabling efficient online scene mapping. The dual-map representation combines a global abstract map for high-level candidate selection with a local concrete map for precise goal-reaching, effectively managing and updating dynamic changes in the environment. Through extensive experiments in both simulation and real-world scenarios, we demonstrate state-of-the-art performance in 3D open-vocabulary segmentation, efficient scene mapping, and online language-guided navigation.

arxiv情報

著者 Jiajun Jiang,Yiming Zhu,Zirui Wu,Jie Song
発行日 2025-06-04 17:05:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | DualMap: Online Open-Vocabulary Semantic Mapping for Natural Language Navigation in Dynamic Changing Scenes はコメントを受け付けていません

Estimating Total Lung Volume from Pixel-level Thickness Maps of Chest Radiographs Using Deep Learning

要約

目的:U-Net Deep Learning Modelによって生成された肺厚さマップを使用して、ピクセルレベルでの実際および合成前頭胸部レントゲン写真(CXR)から総肺容積(TLV)を推定します。
方法:このレトロスペクティブ研究には、2つのパブリックデータセットからの5,959の胸部CTスキャンが含まれていました:肺結節分析2016(n = 656)と北米放射線学会(RSNA)肺塞栓症検出チャレンジ2020(n = 5,303)。
さらに、72人の参加者がKlinikum Rechts der Isar Dataset(2018年10月から2019年12月)から選択され、それぞれが7日以内に対応する胸部X線写真を撮影しました。
合成X線写真と肺の厚さマップは、CTスキャンとその肺セグメンテーションの前方投影を使用して生成されました。
U-NETモデルは、肺の厚さマップを予測し、TLVを推定するために、合成X線写真でトレーニングされました。
モデルのパフォーマンスは、平均二乗誤差(MSE)、ピアソン相関係数(R)、および両側の学生のT分布を使用して評価されました。
結果:この研究には、72人の参加者(45人の男性、27人の女性、33人の健康:平均年齢62歳[範囲34-80]、慢性閉塞性肺疾患を伴う39人:平均年齢69歳[範囲47-91])が含まれていました。
TLVの予測は、低エラー率($ MSE_ {public-synthetic} $ = 0.16 $ l^2 $、$ mse_ {kri-synthetic} $ = 0.20 $ l^2 $、$ mse_ {kri-real} $ = 0.35 $ l^2 $)およびCT由来の参照リファレンス標準TLV〜
r = 0.99、p <0.001; LUNA16テストデータは、TLV推定で最も低い平均二乗誤差(MSE = 0.09 $ l^2 $)と最強の相関(r = 0.99、p <0.001)で最も高いパフォーマンスを実証しました。 結論:U-NET生成されたピクセルレベルの肺厚さマップは、合成レントゲン写真と実際のX線写真の両方についてTLVを推定しました。

要約(オリジナル)

Purpose: To estimate the total lung volume (TLV) from real and synthetic frontal chest radiographs (CXR) on a pixel level using lung thickness maps generated by a U-Net deep learning model. Methods: This retrospective study included 5,959 chest CT scans from two public datasets: the lung nodule analysis 2016 (n=656) and the Radiological Society of North America (RSNA) pulmonary embolism detection challenge 2020 (n=5,303). Additionally, 72 participants were selected from the Klinikum Rechts der Isar dataset (October 2018 to December 2019), each with a corresponding chest radiograph taken within seven days. Synthetic radiographs and lung thickness maps were generated using forward projection of CT scans and their lung segmentations. A U-Net model was trained on synthetic radiographs to predict lung thickness maps and estimate TLV. Model performance was assessed using mean squared error (MSE), Pearson correlation coefficient (r), and two-sided Student’s t-distribution. Results: The study included 72 participants (45 male, 27 female, 33 healthy: mean age 62 years [range 34-80]; 39 with chronic obstructive pulmonary disease: mean age 69 years [range 47-91]). TLV predictions showed low error rates ($MSE_{Public-Synthetic}$=0.16 $L^2$, $MSE_{KRI-Synthetic}$=0.20 $L^2$, $MSE_{KRI-Real}$=0.35 $L^2$) and strong correlations with CT-derived reference standard TLV ($n_{Public-Synthetic}$=1,191, r=0.99, P<0.001; $n_{KRI-Synthetic}$=72, r=0.97, P<0.001; $n_{KRI-Real}$=72, r=0.91, P<0.001). The Luna16 test data demonstrated the highest performance, with the lowest mean squared error (MSE = 0.09 $L^2$) and strongest correlation (r = 0.99, P <0.001) for TLV estimation. Conclusion: The U-Net-generated pixel-level lung thickness maps successfully estimated TLV for both synthetic and real radiographs.

arxiv情報

著者 Tina Dorosti,Manuel Schultheiss,Philipp Schmette,Jule Heuchert,Johannes Thalhammer,Florian T. Gassert,Thorsten Sellerer,Rafael Schick,Kirsten Taphorn,Korbinian Mechlem,Lorenz Birnbacher,Florian Schaff,Franz Pfeiffer,Daniela Pfeiffer
発行日 2025-06-04 17:05:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | Estimating Total Lung Volume from Pixel-level Thickness Maps of Chest Radiographs Using Deep Learning はコメントを受け付けていません

Single-Pass Object-Focused Data Selection

要約

しばしば豊富な画像データは豊富にありますが、高品質のラベルのコストは重要な実用的な課題をもたらします。特定のターゲットタスクに注釈予算を使用するためにラベル付けを選択するために選択する画像はどの画像ですか?
この問題に対処するために、単一パスデータ選択に焦点を当てます。これは、ダウンストリームモデルをトレーニングする前に、すべてのデータを一度に注釈するプロセスを指します。
シングルパスデータ選択の以前の方法は、画像レベルの表現に依存しており、オブジェクトの検出とセグメンテーションのためにランダム選択を確実に上回ることができません。
ファンデーションモデルからオブジェクトレベルの機能を活用し、すべてのターゲットクラスのセマンティックカバレッジを保証するオブジェクト中心のデータ選択(OFD)を提案します。
タスクとターゲットドメイン全体の広範な実験では、OFDは一貫してランダム選択とすべてのベースラインよりも優れています。
制約された注釈予算の最良の結果は、OFDの人間のラベルをFoundationモデルのオートラベルと組み合わせることで得られます。
さらに、OFDを使用してアクティブな学習用の初期ラベルのあるセットを選択すると、一貫した改善が得られます

要約(オリジナル)

While unlabeled image data is often plentiful, the costs of high-quality labels pose an important practical challenge: Which images should one select for labeling to use the annotation budget for a particular target task most effectively? To address this problem, we focus on single-pass data selection, which refers to the process of selecting all data to be annotated at once before training a downstream model. Prior methods for single-pass data selection rely on image-level representations and fail to reliably outperform random selection for object detection and segmentation. We propose Object-Focused Data Selection (OFDS) which leverages object-level features from foundation models and ensures semantic coverage of all target classes. In extensive experiments across tasks and target domains, OFDS consistently outperforms random selection and all baselines. The best results for constrained annotation budgets are obtained by combining human labels from OFDS with autolabels from foundation models. Moreover, using OFDS to select the initial labeled set for active learning yields consistent improvements

arxiv情報

著者 Niclas Popp,Dan Zhang,Jan Hendrik Metzen,Matthias Hein,Lukas Schott
発行日 2025-06-04 17:06:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Single-Pass Object-Focused Data Selection はコメントを受け付けていません

Bézier Splatting for Fast and Differentiable Vector Graphics Rendering

要約

微分可能なベクトルグラフィックス(VG)は画像ベクトル化とベクトル合成で広く使用されていますが、既存の表現は高解像度画像の高品質のレンダリング結果を達成するために最適化し、苦労しています。
この作業では、b \ ‘ezierスプラッティングと呼ばれる新しい微分可能なVG表現を導入し、高速でありながら忠実度の高いVGラスター化を可能にします。
b \ ‘ezierスプラッティングサンプルb \’ ezier曲線に沿った2Dガウスのサンプルは、オブジェクト境界で位置勾配を自然に提供します。
効率的なスプラッティングベースの微分可能なラスターザーのおかげで、b \ ‘ezierスプラッティングは、diffvgと比較して、オープンカーブの前方および後方ラスター化ステップあたり30倍および150倍高速になります。
さらに、曲線の空間分布を動的に調整してローカルミニマイを逃れ、VGの品質をさらに向上させる適応的な剪定および密度化戦略を導入します。
さらに、当社の新しいVG表現は、標準のXMLベースのSVG形式への変換をサポートし、既存のVGツールとパイプラインとの相互運用性を向上させます。
実験結果は、b \ ‘ezierスプラットが視覚的な忠実度と大幅な最適化のスピードアップで既存の方法を大幅に上回ることを示しています。

要約(オリジナル)

Differentiable vector graphics (VGs) are widely used in image vectorization and vector synthesis, while existing representations are costly to optimize and struggle to achieve high-quality rendering results for high-resolution images. This work introduces a new differentiable VG representation, dubbed B\’ezier Splatting, that enables fast yet high-fidelity VG rasterization. B\’ezier Splatting samples 2D Gaussians along B\’ezier curves, which naturally provide positional gradients at object boundaries. Thanks to the efficient splatting-based differentiable rasterizer, B\’ezier Splatting achieves 30x and 150x faster per forward and backward rasterization step for open curves compared to DiffVG. Additionally, we introduce an adaptive pruning and densification strategy that dynamically adjusts the spatial distribution of curves to escape local minima, further improving VG quality. Furthermore, our new VG representation supports conversion to standard XML-based SVG format, enhancing interoperability with existing VG tools and pipelines. Experimental results show that B\’ezier Splatting significantly outperforms existing methods with better visual fidelity and significant optimization speedup.

arxiv情報

著者 Xi Liu,Chaoyi Zhou,Nanxuan Zhao,Siyu Huang
発行日 2025-06-04 17:09:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | Bézier Splatting for Fast and Differentiable Vector Graphics Rendering はコメントを受け付けていません

FlexGS: Train Once, Deploy Everywhere with Many-in-One Flexible 3D Gaussian Splatting

要約

3Dガウス・スプラッティング(3DGS)は、その効率的なレンダリング能力により、3Dシーン表現や斬新なビュー合成における様々なアプリケーションを可能にしている。しかし、3DGSは比較的大きなGPUメモリを必要とするため、計算リソースが制限されたデバイスでの使用が制限されます。これまでのアプローチでは、重要度の低いガウシアンの刈り込みに焦点を当て、3DGSを効果的に圧縮してきたが、多くの場合、微調整段階を必要とし、異なるデバイスの特定のメモリニーズに対する適応性に欠けていた。本研究では、3DGSのための弾性推論手法を提案する。希望するモデルサイズの入力が与えられると、本手法はガウシアンのサブセットを選択して変換し、追加的な微調整なしに実質的なレンダリング性能を達成する。入力の割合に基づいてガウシアンの選択を制御する学習可能な小さなモジュールと、選択されたガウシアンを調整して縮小モデルの性能を補完する変換モジュールを導入する。ZipNeRF、MipNeRF、Tanks&Templesシーンでの包括的な実験により、我々のアプローチの有効性を実証する。コードはhttps://flexgs.github.io。

要約(オリジナル)

3D Gaussian splatting (3DGS) has enabled various applications in 3D scene representation and novel view synthesis due to its efficient rendering capabilities. However, 3DGS demands relatively significant GPU memory, limiting its use on devices with restricted computational resources. Previous approaches have focused on pruning less important Gaussians, effectively compressing 3DGS but often requiring a fine-tuning stage and lacking adaptability for the specific memory needs of different devices. In this work, we present an elastic inference method for 3DGS. Given an input for the desired model size, our method selects and transforms a subset of Gaussians, achieving substantial rendering performance without additional fine-tuning. We introduce a tiny learnable module that controls Gaussian selection based on the input percentage, along with a transformation module that adjusts the selected Gaussians to complement the performance of the reduced model. Comprehensive experiments on ZipNeRF, MipNeRF and Tanks\&Temples scenes demonstrate the effectiveness of our approach. Code is available at https://flexgs.github.io.

arxiv情報

著者 Hengyu Liu,Yuehao Wang,Chenxin Li,Ruisi Cai,Kevin Wang,Wuyang Li,Pavlo Molchanov,Peihao Wang,Zhangyang Wang
発行日 2025-06-04 17:17:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | FlexGS: Train Once, Deploy Everywhere with Many-in-One Flexible 3D Gaussian Splatting はコメントを受け付けていません

Right Side Up? Disentangling Orientation Understanding in MLLMs with Fine-grained Multi-axis Perception Tasks

要約

オブジェクトオリエンテーションの理解は、ロボット操作や拡張現実などのアプリケーションにとって重要な視覚的知覚の基本的な課題を表しています。
現在のビジョン言語ベンチマークは、この能力を分離することができず、しばしばそれを位置の関係や一般的なシーンの理解と混同します。
主要な評価ターゲットとしてオブジェクトオリエンテーションの知覚を確立する包括的なベンチマークであるDori(識別指向性推論インテリジェンス)を紹介します。
Doriは、方向の理解の4つの次元を評価します:前頭整列、回転変換、相対方向の関係、および標準的な方向の理解。
Doriは、合成および実世界のシナリオにまたがる67のオブジェクトカテゴリにまたがる11のデータセットから慎重にキュレーションされたタスクを通じて、マルチモーダルシステムがオブジェクトの方向を理解する方法についての洞察を提供します。
15の最先端のビジョン言語モデルの評価は、重大な制限を明らかにしています。最高のモデルでさえ、粗いタスクで54.2%の精度と粒状方向判断で33.0%しか達成されず、参照フレームシフトまたは複合回転を必要とするタスクのパフォーマンスが悪化します。
これらの発見は、モデルが正確な角度推定を実行できないことを示し、視点間での方向の変化を追跡し、複合回転を理解できないことを示しているため、専用の方向表現メカニズムの必要性を示しています。
マルチモーダルシステムでの方向認識のために特別に設計された最初の診断フレームワークとして、DORIは、物理環境でのロボット制御、3Dシーンの再構築、および人間との相互作用の改善に影響を与えます。
DORIデータ:https://huggingface.co/datasets/appledora/dori-benchmark

要約(オリジナル)

Object orientation understanding represents a fundamental challenge in visual perception critical for applications like robotic manipulation and augmented reality. Current vision-language benchmarks fail to isolate this capability, often conflating it with positional relationships and general scene understanding. We introduce DORI (Discriminative Orientation Reasoning Intelligence), a comprehensive benchmark establishing object orientation perception as a primary evaluation target. DORI assesses four dimensions of orientation comprehension: frontal alignment, rotational transformations, relative directional relationships, and canonical orientation understanding. Through carefully curated tasks from 11 datasets spanning 67 object categories across synthetic and real-world scenarios, DORI provides insights on how multi-modal systems understand object orientations. Our evaluation of 15 state-of-the-art vision-language models reveals critical limitations: even the best models achieve only 54.2% accuracy on coarse tasks and 33.0% on granular orientation judgments, with performance deteriorating for tasks requiring reference frame shifts or compound rotations. These findings demonstrate the need for dedicated orientation representation mechanisms, as models show systematic inability to perform precise angular estimations, track orientation changes across viewpoints, and understand compound rotations – suggesting limitations in their internal 3D spatial representations. As the first diagnostic framework specifically designed for orientation awareness in multimodal systems, DORI offers implications for improving robotic control, 3D scene reconstruction, and human-AI interaction in physical environments. DORI data: https://huggingface.co/datasets/appledora/DORI-Benchmark

arxiv情報

著者 Keanu Nichols,Nazia Tasnim,Yuting Yan,Nicholas Ikechukwu,Elva Zou,Deepti Ghadiyaram,Bryan A. Plummer
発行日 2025-06-04 17:28:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Right Side Up? Disentangling Orientation Understanding in MLLMs with Fine-grained Multi-axis Perception Tasks はコメントを受け付けていません

A Survey on (M)LLM-Based GUI Agents

要約

グラフィカルユーザーインターフェイス(GUI)エージェントは、ルールベースの自動化スクリプトから複雑なインターフェイス操作を理解して実行できる洗練されたAI駆動型システムに進化するヒューマンコンピューター相互作用の変革的パラダイムとして浮上しています。
この調査では、LLMベースのGUIエージェントの急速に前進する分野の包括的な調査を提供し、建築財団、技術的コンポーネント、および評価方法を体系的に分析します。
最新のGUIエージェントを構成する4つの基本コンポーネントを特定および分析します。(1)包括的なインターフェイス理解のためにマルチモーダル理解とテキストベースの解析を統合する知覚システム。
(2)内部モデリング、歴史的経験、および外部情報検索を通じて知識ベースを構築および維持する探索メカニズム。
(3)タスク分解と実行のための高度な推論方法論を活用する計画フレームワーク。
(4)堅牢な安全制御を使用してアクション生成を管理する相互作用システム。
これらのコンポーネントの厳密な分析を通じて、デスクトップ、モバイル、およびWebプラットフォーム全体でGUIオートメーションに革命をもたらした大規模な言語モデルとマルチモーダル学習の最近の進歩がどのように革新されたかを明らかにします。
現在の評価フレームワークを批判的に検討し、標準化の方向を提案しながら、既存のベンチマークの方法論的制限を強調します。
また、この調査では、正確な要素のローカリゼーション、効果的な知識の回復、長老の計画、安全性の認識の実行制御など、GUIエージェントの能力を高めるための有望な研究方向性を概説する重要な技術的課題も特定しています。
当社の系統的レビューは、研究者と実践者にフィールドの現在の状態を完全に理解し、インテリジェントインターフェイスの自動化における将来の発展に関する洞察を提供します。

要約(オリジナル)

Graphical User Interface (GUI) Agents have emerged as a transformative paradigm in human-computer interaction, evolving from rule-based automation scripts to sophisticated AI-driven systems capable of understanding and executing complex interface operations. This survey provides a comprehensive examination of the rapidly advancing field of LLM-based GUI Agents, systematically analyzing their architectural foundations, technical components, and evaluation methodologies. We identify and analyze four fundamental components that constitute modern GUI Agents: (1) perception systems that integrate text-based parsing with multimodal understanding for comprehensive interface comprehension; (2) exploration mechanisms that construct and maintain knowledge bases through internal modeling, historical experience, and external information retrieval; (3) planning frameworks that leverage advanced reasoning methodologies for task decomposition and execution; and (4) interaction systems that manage action generation with robust safety controls. Through rigorous analysis of these components, we reveal how recent advances in large language models and multimodal learning have revolutionized GUI automation across desktop, mobile, and web platforms. We critically examine current evaluation frameworks, highlighting methodological limitations in existing benchmarks while proposing directions for standardization. This survey also identifies key technical challenges, including accurate element localization, effective knowledge retrieval, long-horizon planning, and safety-aware execution control, while outlining promising research directions for enhancing GUI Agents’ capabilities. Our systematic review provides researchers and practitioners with a thorough understanding of the field’s current state and offers insights into future developments in intelligent interface automation.

arxiv情報

著者 Fei Tang,Haolei Xu,Hang Zhang,Siqi Chen,Xingyu Wu,Yongliang Shen,Wenqi Zhang,Guiyang Hou,Zeqi Tan,Yuchen Yan,Kaitao Song,Jian Shao,Weiming Lu,Jun Xiao,Yueting Zhuang
発行日 2025-06-04 17:29:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.HC | A Survey on (M)LLM-Based GUI Agents はコメントを受け付けていません

Advancing Multimodal Reasoning: From Optimized Cold Start to Staged Reinforcement Learning

要約

複雑なテキストタスクにおけるDeepSeek-R1の顕著な推論能力に触発された多くの作品は、補強学習(RL)を直接適用することにより、マルチモーダル大手言語モデル(MLLMS)の同様の機能を奨励しようとします。
しかし、彼らはまだ複雑な推論を活性化するのに苦労しています。
この論文では、マルチモーダルRLを単独で調べるのではなく、現在のトレーニングパイプラインを掘り下げ、3つの重要な現象を特定します。1)効果的なコールドスタート初期化は、MLLMの推論を強化するために重要です。
興味深いことに、慎重に選択されたテキストデータだけで初期化すると、マルチモーダルRLの前であっても、最近のマルチモーダル推論モデルの多くを上回るパフォーマンスにつながる可能性があることがわかります。
2)マルチモーダルRLに適用される標準GRPOは、勾配停滞に苦しみ、トレーニングの安定性とパフォーマンスを低下させます。
3)その後のテキストのみのRLトレーニングは、マルチモーダルRLフェーズに続いて、マルチモーダル推論をさらに強化します。
この段階的なトレーニングアプローチは、知覚的な基盤と認知推論の開発のバランスを効果的にバランスさせます。
上記の洞察を組み込み、マルチモーダルRLの問題に対処することにより、revisual-R1を導入し、Mathverse、Mathvision、Wemath、Wemath、Dynamath、挑戦的なAIME2024およびAIME2025などの挑戦的なベンチマークで、オープンソース7B MLLMの新しい最先端を達成します。

要約(オリジナル)

Inspired by the remarkable reasoning capabilities of Deepseek-R1 in complex textual tasks, many works attempt to incentivize similar capabilities in Multimodal Large Language Models (MLLMs) by directly applying reinforcement learning (RL). However, they still struggle to activate complex reasoning. In this paper, rather than examining multimodal RL in isolation, we delve into current training pipelines and identify three crucial phenomena: 1) Effective cold start initialization is critical for enhancing MLLM reasoning. Intriguingly, we find that initializing with carefully selected text data alone can lead to performance surpassing many recent multimodal reasoning models, even before multimodal RL. 2) Standard GRPO applied to multimodal RL suffers from gradient stagnation, which degrades training stability and performance. 3) Subsequent text-only RL training, following the multimodal RL phase, further enhances multimodal reasoning. This staged training approach effectively balances perceptual grounding and cognitive reasoning development. By incorporating the above insights and addressing multimodal RL issues, we introduce ReVisual-R1, achieving a new state-of-the-art among open-source 7B MLLMs on challenging benchmarks including MathVerse, MathVision, WeMath, LogicVista, DynaMath, and challenging AIME2024 and AIME2025.

arxiv情報

著者 Shuang Chen,Yue Guo,Zhaochen Su,Yafu Li,Yulun Wu,Jiacheng Chen,Jiayu Chen,Weijie Wang,Xiaoye Qu,Yu Cheng
発行日 2025-06-04 17:51:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Advancing Multimodal Reasoning: From Optimized Cold Start to Staged Reinforcement Learning はコメントを受け付けていません

Language-Image Alignment with Fixed Text Encoders

要約

現在、言語と画像のアライメントを確立するための最も一般的なアプローチは、CLIPやその亜種のような対比学習を通して、テキストと画像のエンコーダを共同で事前学習することである。本研究では、このような高価な共同学習が必要かどうかを検討する。特に、事前に訓練された固定大規模言語モデル(LLM)が、視覚表現学習を導くのに十分なテキストエンコーダを提供するかどうかを調査する。つまり、画像エンコーダのみを学習することで、LLMから固定テキストエンコーダ(LIFT)による言語-画像アライメントを学習することを提案する。少し驚くことに、包括的なベンチマークとアブレーション研究を通して、この非常に単純化されたフレームワークLIFTが非常に効果的であり、計算効率においてかなりの利点を達成しながら、構文理解と長いキャプションを含むほとんどのシナリオにおいてCLIPを凌駕することを発見した。我々の研究は、LLMからのテキスト埋め込みがどのように視覚学習を導くことができるかを系統的に探求するための第一歩を踏み出し、言語整合的な視覚表現を学習するための代替的な設計選択を示唆する。

要約(オリジナル)

Currently, the most dominant approach to establishing language-image alignment is to pre-train text and image encoders jointly through contrastive learning, such as CLIP and its variants. In this work, we question whether such a costly joint training is necessary. In particular, we investigate if a pre-trained fixed large language model (LLM) offers a good enough text encoder to guide visual representation learning. That is, we propose to learn Language-Image alignment with a Fixed Text encoder (LIFT) from an LLM by training only the image encoder. Somewhat surprisingly, through comprehensive benchmarking and ablation studies, we find that this much simplified framework LIFT is highly effective and it outperforms CLIP in most scenarios that involve compositional understanding and long captions, while achieving considerable gains in computational efficiency. Our work takes a first step towards systematically exploring how text embeddings from LLMs can guide visual learning and suggests an alternative design choice for learning language-aligned visual representations.

arxiv情報

著者 Jingfeng Yang,Ziyang Wu,Yue Zhao,Yi Ma
発行日 2025-06-04 17:51:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Language-Image Alignment with Fixed Text Encoders はコメントを受け付けていません