要約
生成された画像で思考を提示します。これは、中間視覚的思考ステップの自発的な生成を通じてテキストとビジョンのモダリティ全体でネイティブに考えることにより、視覚的な推論に大きく関与することを根本的に変換する新しいパラダイムです。
LMMを使用した現在の視覚的推論は、固定されたユーザーが提供する画像を処理するか、テキストベースのチェーン(COT)のみを介して推論することに制約されています。
生成された画像を使用して考えると、モデルが中間の視覚思考を積極的に構築し、独自の視覚的仮説を批判し、推論プロセスの不可欠なコンポーネントとして洗練できるという認知能力の新しい次元が解除されます。
2つの補完的なメカニズムを通じてアプローチの有効性を実証します。(1)中間の視覚的サブゴールを使用した視覚生成。モデルは複雑な視覚タスクを徐々に生成および統合された管理可能なコンポーネントに分解し、(2)自己批判を伴う視力生成を実現し、モデルが初期の視覚仮説を生成し、テキストの批判を介してその欠点を分析し、洗練された出力を生成します。
ビジョン生成ベンチマークに関する実験は、ベースラインアプローチよりも大幅に改善されており、モデルは複雑なマルチオブジェクトシナリオの取り扱いにおいて最大50%(38%から57%)の相対的な改善を達成しています。
新しいタンパク質構造を探求し、空間デザインを反復する建築家から、法医学アナリストが犯罪シーンを再構築すること、そして戦略的な演劇を想像するバスケットボール選手まで、私たちのアプローチは、AIモデルが人間の創造的、分析的、戦略的思考を特徴付ける視覚的な想像力と繰り返し改良に従事することができます。
https://github.com/gair-nlp/thinking-with-generated-imagesでオープンソーススイートをリリースします。
要約(オリジナル)
We present Thinking with Generated Images, a novel paradigm that fundamentally transforms how large multimodal models (LMMs) engage with visual reasoning by enabling them to natively think across text and vision modalities through spontaneous generation of intermediate visual thinking steps. Current visual reasoning with LMMs is constrained to either processing fixed user-provided images or reasoning solely through text-based chain-of-thought (CoT). Thinking with Generated Images unlocks a new dimension of cognitive capability where models can actively construct intermediate visual thoughts, critique their own visual hypotheses, and refine them as integral components of their reasoning process. We demonstrate the effectiveness of our approach through two complementary mechanisms: (1) vision generation with intermediate visual subgoals, where models decompose complex visual tasks into manageable components that are generated and integrated progressively, and (2) vision generation with self-critique, where models generate an initial visual hypothesis, analyze its shortcomings through textual reasoning, and produce refined outputs based on their own critiques. Our experiments on vision generation benchmarks show substantial improvements over baseline approaches, with our models achieving up to 50% (from 38% to 57%) relative improvement in handling complex multi-object scenarios. From biochemists exploring novel protein structures, and architects iterating on spatial designs, to forensic analysts reconstructing crime scenes, and basketball players envisioning strategic plays, our approach enables AI models to engage in the kind of visual imagination and iterative refinement that characterizes human creative, analytical, and strategic thinking. We release our open-source suite at https://github.com/GAIR-NLP/thinking-with-generated-images.
arxiv情報
著者 | Ethan Chern,Zhulin Hu,Steffi Chern,Siqi Kou,Jiadi Su,Yan Ma,Zhijie Deng,Pengfei Liu |
発行日 | 2025-05-28 16:12:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google