Discovering Pathology Rationale and Token Allocation for Efficient Multimodal Pathology Reasoning

要約

マルチモーダルの病理学的イメージの理解により、診断の精度を改善し、統合された視覚データとテキストデータを通じてパーソナライズされた治療を可能にする可能性があるため、広範囲にわたる関心を集めています。
ただし、既存の方法は限られた推論機能を示し、複雑な診断シナリオを処理する能力を妨げます。
さらに、病理学的画像の膨大なサイズは、深刻な計算負荷につながり、実際の展開をさらに制限します。
これらの制限に対処するために、2つの相乗的分岐で構成される新しい二国間強化学習フレームワークを紹介します。
1つの強化枝は、明示的な推論監督なしでラベルから直接タスク固有の決定プロセス、つまり病理学の根拠をモデルが学習できるようにすることにより、推論能力を強化します。
一方、他のブランチは、視覚コンテンツとタスクコンテキストの両方に基づいて、カスタマイズされた数のトークンを異なる画像に動的に割り当て、それにより計算効率を最適化します。
視覚的な質問応答、癌のサブタイピング、病変検出など、さまざまな病理学的タスクに方法を適用します。
広範な実験では、平均+41.7の絶対パフォーマンス改善が示されており、ベースモデルで70.3%の推論コストが低く、推論の精度と計算効率の両方を達成しています。

要約(オリジナル)

Multimodal pathological image understanding has garnered widespread interest due to its potential to improve diagnostic accuracy and enable personalized treatment through integrated visual and textual data. However, existing methods exhibit limited reasoning capabilities, which hamper their ability to handle complex diagnostic scenarios. Additionally, the enormous size of pathological images leads to severe computational burdens, further restricting their practical deployment. To address these limitations, we introduce a novel bilateral reinforcement learning framework comprising two synergistic branches. One reinforcement branch enhances the reasoning capability by enabling the model to learn task-specific decision processes, i.e., pathology rationales, directly from labels without explicit reasoning supervision. While the other branch dynamically allocates a tailored number of tokens to different images based on both their visual content and task context, thereby optimizing computational efficiency. We apply our method to various pathological tasks such as visual question answering, cancer subtyping, and lesion detection. Extensive experiments show an average +41.7 absolute performance improvement with 70.3% lower inference costs over the base models, achieving both reasoning accuracy and computational efficiency.

arxiv情報

著者 Zhe Xu,Cheng Jin,Yihui Wang,Ziyi Liu,Hao Chen
発行日 2025-05-21 16:03:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Discovering Pathology Rationale and Token Allocation for Efficient Multimodal Pathology Reasoning はコメントを受け付けていません

HAMF: A Hybrid Attention-Mamba Framework for Joint Scene Context Understanding and Future Motion Representation Learning

要約

モーション予測は、自律的な駆動システムにおける重要な課題を表しており、周囲のエージェントの将来の軌跡の正確な予測が必要です。
既存のアプローチは、歴史的なエージェントの軌跡や道路レイアウトから抽出されたシーンコンテキスト機能を使用して将来のモーション状態を予測しますが、シーン機能のエンコード中の情報劣化に苦しんでいます。
制限に対処するために、シーンのコンテキストを共同でエンコードするシーンのコンテキストで将来のモーション表現を学習する新しいモーション予測フレームワークであるHAMFを提案し、シーンの理解と将来のモーション状態予測を首尾一貫して組み合わせます。
最初に、観測されたエージェント状態を埋め込み、情報情報を1Dトークンシーケンスにマップし、ターゲットマルチモーダルの将来のモーション機能を学習可能なトークンのセットとして組み合わせました。
次に、統一された注意ベースのエンコーダーを設計します。これは、自己触たちと相互触媒メカニズムを相乗的に組み合わせて、シーンコンテキスト情報をモデル化し、将来のモーション機能を共同で集約します。
エンコーダを補完すると、デコード段階にMAMBAモジュールを実装して、学習した将来のモーション表現間の一貫性と相関をさらに維持し、正確で多様な最終軌跡を生成します。
Armoverse 2ベンチマークに関する広範な実験は、ハイブリッドの注意マンバモデルが、シンプルで軽量なアーキテクチャで最先端のモーション予測パフォーマンスを達成することを示しています。

要約(オリジナル)

Motion forecasting represents a critical challenge in autonomous driving systems, requiring accurate prediction of surrounding agents’ future trajectories. While existing approaches predict future motion states with the extracted scene context feature from historical agent trajectories and road layouts, they suffer from the information degradation during the scene feature encoding. To address the limitation, we propose HAMF, a novel motion forecasting framework that learns future motion representations with the scene context encoding jointly, to coherently combine the scene understanding and future motion state prediction. We first embed the observed agent states and map information into 1D token sequences, together with the target multi-modal future motion features as a set of learnable tokens. Then we design a unified Attention-based encoder, which synergistically combines self-attention and cross-attention mechanisms to model the scene context information and aggregate future motion features jointly. Complementing the encoder, we implement the Mamba module in the decoding stage to further preserve the consistency and correlations among the learned future motion representations, to generate the accurate and diverse final trajectories. Extensive experiments on Argoverse 2 benchmark demonstrate that our hybrid Attention-Mamba model achieves state-of-the-art motion forecasting performance with the simple and lightweight architecture.

arxiv情報

著者 Xiaodong Mei,Sheng Wang,Jie Cheng,Yingbing Chen,Dan Xu
発行日 2025-05-21 16:16:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | HAMF: A Hybrid Attention-Mamba Framework for Joint Scene Context Understanding and Future Motion Representation Learning はコメントを受け付けていません

Dress-1-to-3: Single Image to Simulation-Ready 3D Outfit with Diffusion Prior and Differentiable Physics

要約

大規模なモデルの最近の進歩により、画像から3Dの再構成が大幅に進歩しています。
ただし、生成されたモデルは多くの場合、単一のピースに融合され、ダウンストリームタスクでの適用性が制限されます。
このホワイトペーパーでは、3Dガーメントの生成に焦点を当てています。これは、衣服が分離可能でシミュレーション対応を必要とするダイナミックガーメントアニメーションを備えた仮想トライオンなどのアプリケーションの重要なエリアです。
物理学に透明性のあるシミュレーション対応の分離された衣服を、縫製パターンと人間をワイルドイメージから再構築する新しいパイプラインであるドレス-1-to-3を紹介します。
画像から始めて、私たちのアプローチは、事前に訓練された画像からシーイングへのパターン生成モデルを組み合わせて、事前に訓練されたマルチビュー拡散モデルを備えた粗い縫製パターンを作成して、マルチビュー画像を作成します。
縫製パターンは、生成されたマルチビュー画像に基づいた微分可能な衣服シミュレーターを使用してさらに洗練されています。
汎用性の高い実験は、私たちの最適化アプローチが、再構築された3D衣服と人間の幾何学的アラインメントを入力画像で大幅に強化することを示しています。
さらに、テクスチャ生成モジュールと人間のモーションジェネレーションモジュールを統合することにより、カスタマイズされた物理学に魅力的で現実的なダイナミックな衣服のデモを作成します。
プロジェクトページ:https://dress-1to-3.github.io/

要約(オリジナル)

Recent advances in large models have significantly advanced image-to-3D reconstruction. However, the generated models are often fused into a single piece, limiting their applicability in downstream tasks. This paper focuses on 3D garment generation, a key area for applications like virtual try-on with dynamic garment animations, which require garments to be separable and simulation-ready. We introduce Dress-1-to-3, a novel pipeline that reconstructs physics-plausible, simulation-ready separated garments with sewing patterns and humans from an in-the-wild image. Starting with the image, our approach combines a pre-trained image-to-sewing pattern generation model for creating coarse sewing patterns with a pre-trained multi-view diffusion model to produce multi-view images. The sewing pattern is further refined using a differentiable garment simulator based on the generated multi-view images. Versatile experiments demonstrate that our optimization approach substantially enhances the geometric alignment of the reconstructed 3D garments and humans with the input image. Furthermore, by integrating a texture generation module and a human motion generation module, we produce customized physics-plausible and realistic dynamic garment demonstrations. Project page: https://dress-1-to-3.github.io/

arxiv情報

著者 Xuan Li,Chang Yu,Wenxin Du,Ying Jiang,Tianyi Xie,Yunuo Chen,Yin Yang,Chenfanfu Jiang
発行日 2025-05-21 16:30:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Dress-1-to-3: Single Image to Simulation-Ready 3D Outfit with Diffusion Prior and Differentiable Physics はコメントを受け付けていません

RUSplatting: Robust 3D Gaussian Splatting for Sparse-View Underwater Scene Reconstruction

要約

高忠実度の高い水中シーンを再構築することは、軽い吸収、散乱、および水生環境に固有の限られた視認性のために、困難な作業の依然として課題です。
このペーパーでは、深い水中レンダリングの視覚的品質と幾何学的精度の両方を改善する強化されたガウスのスプラッティングベースのフレームワークを紹介します。
より正確な色の回復を可能にするために、水中減衰の物理学に導かれたRGBチャネルの分離学習を提案します。
スパースビューの制限に対処し、ビューの一貫性を改善するために、新しい適応重み付けスキームを使用してフレーム補間戦略を導入します。
さらに、エッジを維持しながらノイズを減らすことを目的とした新しい損失関数を導入します。これは、深海の含有量に不可欠です。
また、新しく収集されたデータセット、Submerged3Dをリリースし、深海環境で特にキャプチャされました。
実験結果は、私たちのフレームワークは、PSNRが最大1.90dBの利益を得て、一貫して最先端の方法を上回り、優れた知覚品質と堅牢性を提供し、海洋ロボット工学と水中視覚分析の有望な方向性を提供することを示しています。

要約(オリジナル)

Reconstructing high-fidelity underwater scenes remains a challenging task due to light absorption, scattering, and limited visibility inherent in aquatic environments. This paper presents an enhanced Gaussian Splatting-based framework that improves both the visual quality and geometric accuracy of deep underwater rendering. We propose decoupled learning for RGB channels, guided by the physics of underwater attenuation, to enable more accurate colour restoration. To address sparse-view limitations and improve view consistency, we introduce a frame interpolation strategy with a novel adaptive weighting scheme. Additionally, we introduce a new loss function aimed at reducing noise while preserving edges, which is essential for deep-sea content. We also release a newly collected dataset, Submerged3D, captured specifically in deep-sea environments. Experimental results demonstrate that our framework consistently outperforms state-of-the-art methods with PSNR gains up to 1.90dB, delivering superior perceptual quality and robustness, and offering promising directions for marine robotics and underwater visual analytics.

arxiv情報

著者 Zhuodong Jiang,Haoran Wang,Guoxi Huang,Brett Seymour,Nantheera Anantrasirichai
発行日 2025-05-21 16:42:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RUSplatting: Robust 3D Gaussian Splatting for Sparse-View Underwater Scene Reconstruction はコメントを受け付けていません

Exploring The Visual Feature Space for Multimodal Neural Decoding

要約

脳信号の複雑さは、マルチモーダルAIを活用して、説明可能な説明のために視覚データとテキストデータと脳のモダリティを整列させる研究を促進します。
ただし、ほとんどの既存の研究は粗い解釈に限定されており、オブジェクトの説明、場所、属性、およびその関係に関する本質的な詳細がありません。
これは、視覚的なデコードにそのような手がかりを使用する場合、不正確であいまいな再構成につながります。
これに対処するために、マルチモーダル大手言語モデル(MLLM)内の事前に訓練された視覚コンポーネントからの視力特徴スペースのさまざまな選択を分析し、これらのモデルと相互作用して複数のレベルの粒度にわたってデコードするゼロショットマルチモーダル脳デコード法を導入します。
%脳信号から細かい詳細を解読するモデルの能力を評価するために、多粒度の脳の詳細理解ベンチマーク(MG-BrainDub)を提案します。
このベンチマークには、2つの重要なタスクが含まれています。詳細な説明と顕著な質問回答。メトリックは、オブジェクト、属性、関係などの重要な視覚要素を強調しています。
私たちのアプローチは、神経デコード精度を強化し、より正確なニューロデコードアプリケーションをサポートします。
コードはhttps://github.com/weihaox/vindexで入手できます。

要約(オリジナル)

The intrication of brain signals drives research that leverages multimodal AI to align brain modalities with visual and textual data for explainable descriptions. However, most existing studies are limited to coarse interpretations, lacking essential details on object descriptions, locations, attributes, and their relationships. This leads to imprecise and ambiguous reconstructions when using such cues for visual decoding. To address this, we analyze different choices of vision feature spaces from pre-trained visual components within Multimodal Large Language Models (MLLMs) and introduce a zero-shot multimodal brain decoding method that interacts with these models to decode across multiple levels of granularities. % To assess a model’s ability to decode fine details from brain signals, we propose the Multi-Granularity Brain Detail Understanding Benchmark (MG-BrainDub). This benchmark includes two key tasks: detailed descriptions and salient question-answering, with metrics highlighting key visual elements like objects, attributes, and relationships. Our approach enhances neural decoding precision and supports more accurate neuro-decoding applications. Code will be available at https://github.com/weihaox/VINDEX.

arxiv情報

著者 Weihao Xia,Cengiz Oztireli
発行日 2025-05-21 17:01:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Exploring The Visual Feature Space for Multimodal Neural Decoding はコメントを受け付けていません

Denoising Score Distillation: From Noisy Diffusion Pretraining to One-Step High-Quality Generation

要約

拡散モデルは、多様な自然分布全体で高解像度の現実的な画像を生成することに顕著な成功を収めています。
ただし、パフォーマンスは高品質のトレーニングデータに大きく依存しているため、破損したサンプルから意味のある分布を学ぶことが困難です。
この制限は、クリーンデータが取得するのが不足または費用がかかる科学的領域での適用性を制限します。
この作業では、低品質のデータから高品質の生成モデルをトレーニングするための驚くほど効果的で斬新なアプローチである、除去スコア蒸留(DSD)を導入します。
DSDは、騒々しい、破損したサンプルのみで拡散モデルを最初に前処理し、それを洗練されたクリーンな出力を生成できるワンステップジェネレーターに蒸留します。
スコアの蒸留は伝統的に拡散モデルを加速する方法と見なされていますが、特に劣化した教師モデルから始まる場合、サンプルの品質を大幅に向上させることもできることを示しています。
さまざまなノイズレベルとデータセットにわたって、DSDは生成パフォーマンスを一貫して改善します。図1の経験的証拠を要約します。さらに、線形モデル設定では、DSDがクリーンデータ分布共変動マトリックスの固有空間を識別し、結果を正規化することを示す理論的洞察を提供します。
このパースペクティブは、効率のためのツールだけでなく、特に低品質のデータ設定で生成モデルを改善するためのメカニズムとしてスコア蒸留を再構成します。

要約(オリジナル)

Diffusion models have achieved remarkable success in generating high-resolution, realistic images across diverse natural distributions. However, their performance heavily relies on high-quality training data, making it challenging to learn meaningful distributions from corrupted samples. This limitation restricts their applicability in scientific domains where clean data is scarce or costly to obtain. In this work, we introduce denoising score distillation (DSD), a surprisingly effective and novel approach for training high-quality generative models from low-quality data. DSD first pretrains a diffusion model exclusively on noisy, corrupted samples and then distills it into a one-step generator capable of producing refined, clean outputs. While score distillation is traditionally viewed as a method to accelerate diffusion models, we show that it can also significantly enhance sample quality, particularly when starting from a degraded teacher model. Across varying noise levels and datasets, DSD consistently improves generative performancewe summarize our empirical evidence in Fig. 1. Furthermore, we provide theoretical insights showing that, in a linear model setting, DSD identifies the eigenspace of the clean data distributions covariance matrix, implicitly regularizing the generator. This perspective reframes score distillation as not only a tool for efficiency but also a mechanism for improving generative models, particularly in low-quality data settings.

arxiv情報

著者 Tianyu Chen,Yasi Zhang,Zhendong Wang,Ying Nian Wu,Oscar Leong,Mingyuan Zhou
発行日 2025-05-21 17:09:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Denoising Score Distillation: From Noisy Diffusion Pretraining to One-Step High-Quality Generation はコメントを受け付けていません

Constructing a 3D Town from a Single Image

要約

詳細な3Dシーンを取得するには、通常、費用のかかる機器、マルチビューデータ、または労働集約的なモデリングが必要です。
したがって、単一のトップダウン画像から複雑な3Dシーンを生成する軽量の代替品は、実際のアプリケーションで重要な役割を果たします。
最近の3D生成モデルはオブジェクトレベルで顕著な結果を達成していますが、フルシーン生成への拡張は、しばしば一貫性のないジオメトリ、レイアウト幻覚、および低品質のメッシュにつながります。
この作業では、単一のトップダウンビューから現実的で一貫した3Dシーンを合成するように設計されたトレーニングフリーのフレームワークである3DTownを紹介します。
私たちの方法は、2つの原則に基づいています。地域ベースの生成は、画像と3Dのアライメントと解像度を改善するための生成と、グローバルなシーンの一貫性と高品質のジオメトリ生成を確保するための空間認識3Dの入力です。
具体的には、入力画像を重複する領域に分解し、前​​提条件の3Dオブジェクトジェネレーターを使用してそれぞれを生成し、その後、構造の連続性を維持しながら不足しているジオメトリを満たすマスクされた修正フローインペインティングプロセスが続きます。
このモジュール設計により、3Dの監督や微調整を必要とせずに、解像度のボトルネックを克服し、空間構造を保存することができます。
多様なシーン全体の広範な実験では、3DTownが、ジオメトリの品質、空間的一貫性、およびテクスチャーの忠実性の観点から、Trellis、Hunyuan3D-2、Triposgを含む最先端のベースラインよりも優れていることが示されています。
私たちの結果は、高品質の3Dタウン世代が、原則的でトレーニングのないアプローチを使用して単一の画像から達成できることを示しています。

要約(オリジナル)

Acquiring detailed 3D scenes typically demands costly equipment, multi-view data, or labor-intensive modeling. Therefore, a lightweight alternative, generating complex 3D scenes from a single top-down image, plays an essential role in real-world applications. While recent 3D generative models have achieved remarkable results at the object level, their extension to full-scene generation often leads to inconsistent geometry, layout hallucinations, and low-quality meshes. In this work, we introduce 3DTown, a training-free framework designed to synthesize realistic and coherent 3D scenes from a single top-down view. Our method is grounded in two principles: region-based generation to improve image-to-3D alignment and resolution, and spatial-aware 3D inpainting to ensure global scene coherence and high-quality geometry generation. Specifically, we decompose the input image into overlapping regions and generate each using a pretrained 3D object generator, followed by a masked rectified flow inpainting process that fills in missing geometry while maintaining structural continuity. This modular design allows us to overcome resolution bottlenecks and preserve spatial structure without requiring 3D supervision or fine-tuning. Extensive experiments across diverse scenes show that 3DTown outperforms state-of-the-art baselines, including Trellis, Hunyuan3D-2, and TripoSG, in terms of geometry quality, spatial coherence, and texture fidelity. Our results demonstrate that high-quality 3D town generation is achievable from a single image using a principled, training-free approach.

arxiv情報

著者 Kaizhi Zheng,Ruijian Zhang,Jing Gu,Jie Yang,Xin Eric Wang
発行日 2025-05-21 17:10:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Constructing a 3D Town from a Single Image はコメントを受け付けていません

MIRACL-VISION: A Large, multilingual, visual document retrieval benchmark

要約

ドキュメント検索は、検索および検索の高等発電(RAG)アプリケーションの重要なタスクです。
大規模な言語モデル(LLMS)は、テキストベースのドキュメント取得の精度の向上に貢献しています。
ただし、複雑なレイアウトとテーブル、チャート、インフォグラフィックなどの視覚要素を備えたドキュメントは、テキスト形式で完全に表されていません。
最近、画像ベースのドキュメント検索パイプラインが一般的になりました。これは、視覚的な大規模な言語モデル(VLM)を使用して、クエリが与えられた関連ページ画像を取得します。
視覚ドキュメントの検索の現在の評価ベンチマークは、主に英語のみに焦点を当て、合成的に生成された質問に依存し、小さなコーパスサイズを提供するため、制限されています。
したがって、多言語の視覚文書検索評価ベンチマークであるMiracl-visionを紹介します。
Miracl-Visionは18の言語をカバーし、Miracl Datasetの拡張であり、テキストベースの多言語検索パイプラインを評価するための人気のあるベンチマークです。
Miraclは、高品質の質問を生成するために、人間集約型の注釈プロセスを使用して構築されました。
Miracl-Vision Corpusサイズを縮小して評価をよりコンピューティングにしながら、データセットを困難に保ち、コーパスから「簡単な」ネガを排除する方法を設計しました。
Miracl-visionと他のベンチマークを比較した広範な実験を、一般的なパブリックテキストと画像モデルを使用して実施しました。
マルチリングル機能に関する最先端のVLMベースの埋め込みモデルのギャップが観察され、テキストベースの検索モデルよりも最大59.7%低い検索精度があります。
英語であっても、視覚モデルの検索精度は、テキストベースのモデルと比較して12.1%低くなっています。
Miracl-visionは、視覚検索パイプラインの挑戦的で代表的な多言語評価ベンチマークであり、コミュニティがドキュメント取得のための堅牢なモデルを構築するのに役立ちます。

要約(オリジナル)

Document retrieval is an important task for search and Retrieval-Augmented Generation (RAG) applications. Large Language Models (LLMs) have contributed to improving the accuracy of text-based document retrieval. However, documents with complex layout and visual elements like tables, charts and infographics are not perfectly represented in textual format. Recently, image-based document retrieval pipelines have become popular, which use visual large language models (VLMs) to retrieve relevant page images given a query. Current evaluation benchmarks on visual document retrieval are limited, as they primarily focus only English language, rely on synthetically generated questions and offer a small corpus size. Therefore, we introduce MIRACL-VISION, a multilingual visual document retrieval evaluation benchmark. MIRACL-VISION covers 18 languages, and is an extension of the MIRACL dataset, a popular benchmark to evaluate text-based multilingual retrieval pipelines. MIRACL was built using a human-intensive annotation process to generate high-quality questions. In order to reduce MIRACL-VISION corpus size to make evaluation more compute friendly while keeping the datasets challenging, we have designed a method for eliminating the ‘easy’ negatives from the corpus. We conducted extensive experiments comparing MIRACL-VISION with other benchmarks, using popular public text and image models. We observe a gap in state-of-the-art VLM-based embedding models on multilingual capabilities, with up to 59.7% lower retrieval accuracy than a text-based retrieval models. Even for the English language, the visual models retrieval accuracy is 12.1% lower compared to text-based models. MIRACL-VISION is a challenging, representative, multilingual evaluation benchmark for visual retrieval pipelines and will help the community build robust models for document retrieval.

arxiv情報

著者 Radek Osmulski,Gabriel de Souza P. Moreira,Ronay Ak,Mengyao Xu,Benedikt Schifferer,Even Oldridge
発行日 2025-05-21 17:26:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IR | MIRACL-VISION: A Large, multilingual, visual document retrieval benchmark はコメントを受け付けていません

IA-T2I: Internet-Augmented Text-to-Image Generation

要約

現在のテキストからイメージ(T2I)生成モデルは有望な結果を達成しますが、テキストプロンプトで暗示されている知識が不確実であるシナリオでは失敗します。
たとえば、2月にリリースされたT2Iモデルは、キャラクターのデザインとスタイルがモデルに不確実であるため、4月に初演される映画に適したポスターを生成するのに苦労します。
この問題を解決するために、Internet-Augmented Text-to-Imageの生成(IA-T2I)フレームワークを提案して、T2Iモデルに参照画像を提供することにより、このような不確実な知識について明確にします。
具体的には、アクティブな検索モジュールは、指定されたテキストプロンプトに基づいて参照画像が必要かどうかを判断するように設計されています。
階層画像選択モジュールが導入され、T2Iモデルを強化するために画像検索エンジンによって返される最も適切な画像を見つけます。
生成された画像を継続的に評価および改良して、テキストプロンプトとの忠実な整合を確保するための自己反省メカニズムが提示されます。
提案されたフレームワークのパフォーマンスを評価するために、IMG-REF-T2Iという名前のデータセットを収集します。テキストプロンプトには、3つのタイプの不確実な知識が含まれています。(1)既知がまれです。
(2)不明。
(3)あいまいな。
さらに、複雑なプロンプトを慎重に作成して、GPT-4Oをガイドして優先評価を行います。これは、人間の好み評価と同様の評価精度を持つことが示されています。
実験結果は、私たちのフレームワークの有効性を示しており、GPT-4Oを人間の評価で約30%上回ることを示しています。

要約(オリジナル)

Current text-to-image (T2I) generation models achieve promising results, but they fail on the scenarios where the knowledge implied in the text prompt is uncertain. For example, a T2I model released in February would struggle to generate a suitable poster for a movie premiering in April, because the character designs and styles are uncertain to the model. To solve this problem, we propose an Internet-Augmented text-to-image generation (IA-T2I) framework to compel T2I models clear about such uncertain knowledge by providing them with reference images. Specifically, an active retrieval module is designed to determine whether a reference image is needed based on the given text prompt; a hierarchical image selection module is introduced to find the most suitable image returned by an image search engine to enhance the T2I model; a self-reflection mechanism is presented to continuously evaluate and refine the generated image to ensure faithful alignment with the text prompt. To evaluate the proposed framework’s performance, we collect a dataset named Img-Ref-T2I, where text prompts include three types of uncertain knowledge: (1) known but rare. (2) unknown. (3) ambiguous. Moreover, we carefully craft a complex prompt to guide GPT-4o in making preference evaluation, which has been shown to have an evaluation accuracy similar to that of human preference evaluation. Experimental results demonstrate the effectiveness of our framework, outperforming GPT-4o by about 30% in human evaluation.

arxiv情報

著者 Chuanhao Li,Jianwen Sun,Yukang Feng,Mingliang Zhai,Yifan Chang,Kaipeng Zhang
発行日 2025-05-21 17:31:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | IA-T2I: Internet-Augmented Text-to-Image Generation はコメントを受け付けていません

VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL

要約

拡散モデルは、さまざまなドメインにわたって強力な生成ツールとして浮上していますが、特定の望ましい特性を示すために事前に訓練されたモデルを調整することは依然として困難です。
Rehnection Learning(RL)は有望なソリューションを提供しますが、現在の方法は、安定した効率的な微調整を実現し、非差性の報酬をサポートするのに同時に苦労しています。
さらに、スパースの報酬への依存は、中間ステップ中に不十分な監督を提供し、多くの場合、最適ではない生成の品質をもたらします。
これらの制限に対処するために、拡散プロセス全体で密度と微分可能な信号が必要です。
したがって、私たちは価値ベースの強化拡散(VARD)を提案します。最初に中間状態からの報酬の免除を予測する値関数を学習し、その後KL正規化でこの値関数を使用して、生成プロセス全体で密な監督を提供します。
私たちの方法は、逆流を介して効果的で安定したトレーニングを可能にしながら、事前に守られたモデルへの近接性を維持します。
実験結果は、私たちのアプローチがより良い軌道ガイダンスを促進し、トレーニングの効率を改善し、RLの適用性を複雑で分化できない報酬機能に最適化された拡散モデルに拡張することを示しています。

要約(オリジナル)

Diffusion models have emerged as powerful generative tools across various domains, yet tailoring pre-trained models to exhibit specific desirable properties remains challenging. While reinforcement learning (RL) offers a promising solution,current methods struggle to simultaneously achieve stable, efficient fine-tuning and support non-differentiable rewards. Furthermore, their reliance on sparse rewards provides inadequate supervision during intermediate steps, often resulting in suboptimal generation quality. To address these limitations, dense and differentiable signals are required throughout the diffusion process. Hence, we propose VAlue-based Reinforced Diffusion (VARD): a novel approach that first learns a value function predicting expection of rewards from intermediate states, and subsequently uses this value function with KL regularization to provide dense supervision throughout the generation process. Our method maintains proximity to the pretrained model while enabling effective and stable training via backpropagation. Experimental results demonstrate that our approach facilitates better trajectory guidance, improves training efficiency and extends the applicability of RL to diffusion models optimized for complex, non-differentiable reward functions.

arxiv情報

著者 Fengyuan Dai,Zifeng Zhuang,Yufei Huang,Siteng Huang,Bangyan Liao,Donglin Wang,Fajie Yuan
発行日 2025-05-21 17:44:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL はコメントを受け付けていません