Poly-MgNet: Polynomial Building Blocks in Multigrid-Inspired ResNets

要約

2016年にHE et al。\によってすでに指摘されている畳み込みやプールなどの一般的なビルディングブロックなどの再ネットとマルチグリッド(MG)メソッドの構造類似。
MGメソッドは、特に2つの主要な概念に依存しています。スムージングと残留制限 /粗大化。
これらの類推を活用して、HEとXUはMGNETフレームワークを開発し、MGスキームを再ネットの設計に統合しました。
この作業では、MG理論の多項式スモーターに触発された新しいニューラルネットワークビルディングブロックを紹介します。
MGの観点からの多項式ブロックは、MGNETフレームワークをポリMGNETに自然に拡張し、同時にMGNETの重み数を減らします。
多項式ブロックの包括的な研究を提示し、初期係数、多項式程度、活性化関数の配置、およびバッチ正規化の選択を分析します。
我々の結果は、実際のおよび想像上の多項式根に基づいた(二次)多項式構成ブロックを構築することが、精度の点でポリMGNETの能力を高めることを示しています。
さらに、私たちのアプローチは、MGNETの特定の構成と比較して、ResNetと比較して、モデルの精度と重量の数のトレードオフの改善を達成します。

要約(オリジナル)

The structural analogies of ResNets and Multigrid (MG) methods such as common building blocks like convolutions and poolings where already pointed out by He et al.\ in 2016. Multigrid methods are used in the context of scientific computing for solving large sparse linear systems arising from partial differential equations. MG methods particularly rely on two main concepts: smoothing and residual restriction / coarsening. Exploiting these analogies, He and Xu developed the MgNet framework, which integrates MG schemes into the design of ResNets. In this work, we introduce a novel neural network building block inspired by polynomial smoothers from MG theory. Our polynomial block from an MG perspective naturally extends the MgNet framework to Poly-Mgnet and at the same time reduces the number of weights in MgNet. We present a comprehensive study of our polynomial block, analyzing the choice of initial coefficients, the polynomial degree, the placement of activation functions, as well as of batch normalizations. Our results demonstrate that constructing (quadratic) polynomial building blocks based on real and imaginary polynomial roots enhances Poly-MgNet’s capacity in terms of accuracy. Furthermore, our approach achieves an improved trade-off of model accuracy and number of weights compared to ResNet as well as compared to specific configurations of MgNet.

arxiv情報

著者 Antonia van Betteray,Matthias Rottmann,Karsten Kahl
発行日 2025-03-13 17:42:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Poly-MgNet: Polynomial Building Blocks in Multigrid-Inspired ResNets はコメントを受け付けていません

GroundingSuite: Measuring Complex Multi-Granular Pixel Grounding

要約

表現セグメンテーション(RES)を参照するなどのタスクを含むピクセルの接地は、ビジョンと言語のモダリティのギャップを埋める大きな可能性のために、かなりの注目を集めています。
ただし、このドメインの進歩は、現在、限られたオブジェクトカテゴリ、テキストの多様性が不十分、高品質の注釈が不足しているなど、既存のデータセットに固有の制限によって制約されています。
これらの制限を緩和するために、次のことを含むGroundingSuiteを紹介します。(1)複数の視覚言語モデル(VLM)エージェントを活用する自動データアノテーションフレームワーク。
(2)956万の多様な紹介式とそれらに対応するセグメンテーションを含む大規模なトレーニングデータセット。
(3)3,800枚の画像で構成される細心の注意を払ってキュレーションされた評価ベンチマーク。
GroundingSuiteトレーニングデータセットは、大幅なパフォーマンスの改善を促進し、最先端の結果を達成できるようにトレーニングされたモデルを可能にします。
具体的には、Grefcocoで68.9のCiouとRefcocomで55.3のGiou。
さらに、GroundingSuite Annotationフレームワークは、現在の主要なデータアノテーション方法、つまりGLAMMよりも$ 4.5 \ Times $ $ $ $ 4.5 \ Times $と比較して優れた効率を示しています。

要約(オリジナル)

Pixel grounding, encompassing tasks such as Referring Expression Segmentation (RES), has garnered considerable attention due to its immense potential for bridging the gap between vision and language modalities. However, advancements in this domain are currently constrained by limitations inherent in existing datasets, including limited object categories, insufficient textual diversity, and a scarcity of high-quality annotations. To mitigate these limitations, we introduce GroundingSuite, which comprises: (1) an automated data annotation framework leveraging multiple Vision-Language Model (VLM) agents; (2) a large-scale training dataset encompassing 9.56 million diverse referring expressions and their corresponding segmentations; and (3) a meticulously curated evaluation benchmark consisting of 3,800 images. The GroundingSuite training dataset facilitates substantial performance improvements, enabling models trained on it to achieve state-of-the-art results. Specifically, a cIoU of 68.9 on gRefCOCO and a gIoU of 55.3 on RefCOCOm. Moreover, the GroundingSuite annotation framework demonstrates superior efficiency compared to the current leading data annotation method, i.e., $4.5 \times$ faster than the GLaMM.

arxiv情報

著者 Rui Hu,Lianghui Zhu,Yuxuan Zhang,Tianheng Cheng,Lei Liu,Heng Liu,Longjin Ran,Xiaoxin Chen,Wenyu Liu,Xinggang Wang
発行日 2025-03-13 17:43:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | GroundingSuite: Measuring Complex Multi-Granular Pixel Grounding はコメントを受け付けていません

GroomLight: Hybrid Inverse Rendering for Relightable Human Hair Appearance Modeling

要約

Multi-View画像からの信頼できる髪の外観モデリングの新しい方法であるGroomlightを提示します。
既存のヘアキャプチャメソッドは、フォトリアリスティックなレンダリングと再生能力のバランスをとるのに苦労しています。
分析材料モデルは、物理的に接地されていますが、多くの場合、外観の詳細を完全にキャプチャできません。
逆に、ニューラルレンダリングアプローチはビュー合成に優れていますが、新しい照明条件にはあまり一般化されていません。
Groomlightは、両方のパラダイムの強度を組み合わせることにより、この課題に対処します。
拡張された髪のBSDFモデルを使用して、一次光輸送と、残りの詳細を再構築するために光を認識した残差モデルをキャプチャします。
さらに、両方のコンポーネントを最適化するためのハイブリッド逆レンダリングパイプラインを提案し、高忠実度の学習、ビューの合成、および材料編集を可能にします。
現実世界の髪のデータに関する広範な評価は、私たちの方法の最先端のパフォーマンスを示しています。

要約(オリジナル)

We present GroomLight, a novel method for relightable hair appearance modeling from multi-view images. Existing hair capture methods struggle to balance photorealistic rendering with relighting capabilities. Analytical material models, while physically grounded, often fail to fully capture appearance details. Conversely, neural rendering approaches excel at view synthesis but generalize poorly to novel lighting conditions. GroomLight addresses this challenge by combining the strengths of both paradigms. It employs an extended hair BSDF model to capture primary light transport and a light-aware residual model to reconstruct the remaining details. We further propose a hybrid inverse rendering pipeline to optimize both components, enabling high-fidelity relighting, view synthesis, and material editing. Extensive evaluations on real-world hair data demonstrate state-of-the-art performance of our method.

arxiv情報

著者 Yang Zheng,Menglei Chai,Delio Vicini,Yuxiao Zhou,Yinghao Xu,Leonidas Guibas,Gordon Wetzstein,Thabo Beeler
発行日 2025-03-13 17:43:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | GroomLight: Hybrid Inverse Rendering for Relightable Human Hair Appearance Modeling はコメントを受け付けていません

TruthPrInt: Mitigating LVLM Object Hallucination Via Latent Truthful-Guided Pre-Intervention

要約

オブジェクト幻覚(OH)は、大規模な視覚言語モデル(LVLMS)における主要な信頼できる課題の1つとして認められています。
大規模な言語モデル(LLMS)の最近の進歩は、隠された状態などの内部状態が生成された応答の「全体的な真実性」をエンコードすることを示しています。
ただし、LVLMSの内部状態がどのように機能するか、およびそれらが「トークンあたりの」幻覚指標として機能することができるかどうかは、OHを緩和するために不可欠であるかどうかを推奨していないままです。
この論文では、まずOHの問題に関連してLVLM内部状態の詳細な調査を実施し、(1)LVLM内部状態が幻覚行動のトークンあたりの高特性であることを発見します。
さらに、(2)異なるLVLMSは、一般的な潜在サブスペースの幻覚の普遍的なパターンをエンコードし、さまざまなLVLMが共有する「一般的な真実の方向」が存在することを示しています。
これらの発見に基づいて、LVLMデコードの真実の方向を最初に学習し、次にLVLMデコード中に真実のガイド付き推論時間介入を適用する真実の誘導前介入(TruthPrint)を提案します。
さらに、Comnhalluを提案して、幻覚の潜在サブスペースを構築および整列させることにより、クロスLVLMとクロスダータの幻覚検出移動性の両方を強化します。
人気のあるLVLMSおよびOHベンチマークよりも、ドメイン内およびドメイン外のシナリオを含む広範な実験設定でTruthPrintを評価します。
実験結果は、TruthPrintが最新の方法よりも大幅に優れていることを示しています。
コードはhttps://github.com/jinhaoduan/truthprintで入手できます。

要約(オリジナル)

Object Hallucination (OH) has been acknowledged as one of the major trustworthy challenges in Large Vision-Language Models (LVLMs). Recent advancements in Large Language Models (LLMs) indicate that internal states, such as hidden states, encode the ‘overall truthfulness’ of generated responses. However, it remains under-explored how internal states in LVLMs function and whether they could serve as ‘per-token’ hallucination indicators, which is essential for mitigating OH. In this paper, we first conduct an in-depth exploration of LVLM internal states in relation to OH issues and discover that (1) LVLM internal states are high-specificity per-token indicators of hallucination behaviors. Moreover, (2) different LVLMs encode universal patterns of hallucinations in common latent subspaces, indicating that there exist ‘generic truthful directions’ shared by various LVLMs. Based on these discoveries, we propose Truthful-Guided Pre-Intervention (TruthPrInt) that first learns the truthful direction of LVLM decoding and then applies truthful-guided inference-time intervention during LVLM decoding. We further propose ComnHallu to enhance both cross-LVLM and cross-data hallucination detection transferability by constructing and aligning hallucination latent subspaces. We evaluate TruthPrInt in extensive experimental settings, including in-domain and out-of-domain scenarios, over popular LVLMs and OH benchmarks. Experimental results indicate that TruthPrInt significantly outperforms state-of-the-art methods. Codes will be available at https://github.com/jinhaoduan/TruthPrInt.

arxiv情報

著者 Jinhao Duan,Fei Kong,Hao Cheng,James Diffenderfer,Bhavya Kailkhura,Lichao Sun,Xiaofeng Zhu,Xiaoshuang Shi,Kaidi Xu
発行日 2025-03-13 17:46:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | TruthPrInt: Mitigating LVLM Object Hallucination Via Latent Truthful-Guided Pre-Intervention はコメントを受け付けていません

Dual-Stage Cross-Modal Network with Dynamic Feature Fusion for Emotional Mimicry Intensity Estimation

要約

感情的な模倣強度(EMI)推定は、人間の社会的行動を理解し、人間とコンピューターの相互作用体験を強化するための重要な技術として機能します。ここでは、コアチャレンジは動的相関モデリングとマルチモーダル時間信号の堅牢な融合にあります。
モーダルの相乗効果、ノイズ感度、限られた微調整されたアライメント機能の不十分な活用における既存の方法の制限に対処するために、このペーパーでは、デュアルステージクロスモーダルアライメントフレームワークを提案します。
まず、改良されたクリップアーキテクチャに基づいてビジョンテキストとオーディオテキストのコントラスト学習ネットワークを構築し、モダリティ分離前トレーニングを通じて機能空間で予備的な調整を実現します。
その後、一時的な畳み込みネットワーク(TCN)とゲートの双方向LSTMを組み合わせた一時的に認識された動的融合モジュールを設計して、それぞれ表情のマクロ進化パターンと音響特徴の局所的なダイナミクスをキャプチャします。
革新的には、輝く重みの割り当てを通じて、閉塞および騒々しいシナリオの下でモダリティ補正を可能にする品質誘導モダリティ融合戦略を導入します。
Hume-Vidmimic2データセットの実験結果は、私たちの方法が6つの感情次元にわたって0.35の平均ピアソン相関係数を達成し、最高のベースラインを40 \%上に上回ることを示しています。
アブレーション研究は、デュアルステージトレーニング戦略と動的融合メカニズムの有効性をさらに検証し、オープン環境で微調整された感情分析のための新しい技術的経路を提供します。

要約(オリジナル)

Emotional Mimicry Intensity (EMI) estimation serves as a critical technology for understanding human social behavior and enhancing human-computer interaction experiences, where the core challenge lies in dynamic correlation modeling and robust fusion of multimodal temporal signals. To address the limitations of existing methods in insufficient exploitation of modal synergistic effects, noise sensitivity, and limited fine-grained alignment capabilities, this paper proposes a dual-stage cross-modal alignment framework. First, we construct vision-text and audio-text contrastive learning networks based on an improved CLIP architecture, achieving preliminary alignment in the feature space through modality-decoupled pre-training. Subsequently, we design a temporal-aware dynamic fusion module that combines Temporal Convolutional Networks (TCN) and gated bidirectional LSTM to respectively capture the macro-evolution patterns of facial expressions and local dynamics of acoustic features. Innovatively, we introduce a quality-guided modality fusion strategy that enables modality compensation under occlusion and noisy scenarios through differentiable weight allocation. Experimental results on the Hume-Vidmimic2 dataset demonstrate that our method achieves an average Pearson correlation coefficient of 0.35 across six emotion dimensions, outperforming the best baseline by 40\%. Ablation studies further validate the effectiveness of the dual-stage training strategy and dynamic fusion mechanism, providing a novel technical pathway for fine-grained emotion analysis in open environments.

arxiv情報

著者 Jun Yu,Lingsi Zhu,Yanjun Chi,Yunxiang Zhang,Yang Zheng,Yongqi Wang,Xilong Lu
発行日 2025-03-13 17:46:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Dual-Stage Cross-Modal Network with Dynamic Feature Fusion for Emotional Mimicry Intensity Estimation はコメントを受け付けていません

MuDG: Taming Multi-modal Diffusion with Gaussian Splatting for Urban Scene Reconstruction

要約

ラディアンスフィールドの最近のブレークスルーは、自律運転における3Dシーンの再構築と新規ビュー合成(NVS)を大幅に進めています。
それにもかかわらず、重大な制限は持続します。再構築に基づく方法は、トレーニングの軌跡からの重要な視点逸脱の下で実質的な性能劣化を示しますが、世代ベースのテクニックは時間的一貫性と正確なシーンの制御性に苦労しています。
これらの課題を克服するために、マルチモーダル拡散モデルを都市のシーンの再建のためのガウススプラッティング(GS)と統合する革新的なフレームワークであるMudgを提示します。
MUDGは、RGBと幾何学的なプライアーを備えた総合Lidarポイント雲を活用して、新しい視点の光選挙的RGB、深さ、およびセマンティック出力を合成するマルチモーダルビデオ拡散モデルを調整します。
この合成パイプラインは、計算的に集中的にシーンあたりの最適化なしにフィードフォワードNVを可能にし、極端な視点の変化の下で堅牢性の強化を実現するための3DGS表現を改良するための包括的な監督信号を提供します。
Open Waymo Datasetでの実験は、Mudgが再構築と合成品質の両方で既存の方法を上回ることを示しています。

要約(オリジナル)

Recent breakthroughs in radiance fields have significantly advanced 3D scene reconstruction and novel view synthesis (NVS) in autonomous driving. Nevertheless, critical limitations persist: reconstruction-based methods exhibit substantial performance deterioration under significant viewpoint deviations from training trajectories, while generation-based techniques struggle with temporal coherence and precise scene controllability. To overcome these challenges, we present MuDG, an innovative framework that integrates Multi-modal Diffusion model with Gaussian Splatting (GS) for Urban Scene Reconstruction. MuDG leverages aggregated LiDAR point clouds with RGB and geometric priors to condition a multi-modal video diffusion model, synthesizing photorealistic RGB, depth, and semantic outputs for novel viewpoints. This synthesis pipeline enables feed-forward NVS without computationally intensive per-scene optimization, providing comprehensive supervision signals to refine 3DGS representations for rendering robustness enhancement under extreme viewpoint changes. Experiments on the Open Waymo Dataset demonstrate that MuDG outperforms existing methods in both reconstruction and synthesis quality.

arxiv情報

著者 Yingshuang Zou,Yikang Ding,Chuanrui Zhang,Jiazhe Guo,Bohan Li,Xiaoyang Lyu,Feiyang Tan,Xiaojuan Qi,Haoqian Wang
発行日 2025-03-13 17:48:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MuDG: Taming Multi-modal Diffusion with Gaussian Splatting for Urban Scene Reconstruction はコメントを受け付けていません

OCCUQ: Exploring Efficient Uncertainty Quantification for 3D Occupancy Prediction

要約

自律運転は、生産性を大幅に向上させ、多くの社会的利益を提供する可能性があります。
特に、車両がトレーニング中に遭遇しなかった可能性のある有害な気象条件とセンサーの腐敗をナビゲートしなければならない場合、これらの安全性のあるシステムの堅牢性を確保することが不可欠です。
現在の方法は、多くの場合、敵対的な状態や分布シフトから生じる不確実性を見落とし、現実世界の適用性を制限しています。
3D占有予測の不確実性推定手法の効率的な適応を提案します。
私たちの方法は、認識論的不確実性の推定値を使用して、モデル信頼度を動的に調整します。
霧や欠落カメラなどのさまざまなカメラの破損シナリオでの評価は、このアプローチが未見えになったデータに高い不確実性値を割り当てることにより、認識論的不確実性を効果的に定量化することを示しています。
地域固有の腐敗を導入して、単一のカメラのみに影響を与える欠陥をシミュレートし、シーンレベルと地域レベルの評価の両方を通じて調査結果を検証します。
私たちの結果は、ディープアンサンブルやMCドロップアウトなどの一般的なベースラインと比較して、分散除外(OOD)検出と信頼校正の優れた性能を示しています。
私たちのアプローチは一貫して信頼できる不確実性測定を実証し、実際のシナリオで自律的な駆動システムの堅牢性を高める可能性を示しています。
コードとデータセットは、https://github.com/ika-rwth-aachen/occuqで入手できます。

要約(オリジナル)

Autonomous driving has the potential to significantly enhance productivity and provide numerous societal benefits. Ensuring robustness in these safety-critical systems is essential, particularly when vehicles must navigate adverse weather conditions and sensor corruptions that may not have been encountered during training. Current methods often overlook uncertainties arising from adversarial conditions or distributional shifts, limiting their real-world applicability. We propose an efficient adaptation of an uncertainty estimation technique for 3D occupancy prediction. Our method dynamically calibrates model confidence using epistemic uncertainty estimates. Our evaluation under various camera corruption scenarios, such as fog or missing cameras, demonstrates that our approach effectively quantifies epistemic uncertainty by assigning higher uncertainty values to unseen data. We introduce region-specific corruptions to simulate defects affecting only a single camera and validate our findings through both scene-level and region-level assessments. Our results show superior performance in Out-of-Distribution (OoD) detection and confidence calibration compared to common baselines such as Deep Ensembles and MC-Dropout. Our approach consistently demonstrates reliable uncertainty measures, indicating its potential for enhancing the robustness of autonomous driving systems in real-world scenarios. Code and dataset are available at https://github.com/ika-rwth-aachen/OCCUQ .

arxiv情報

著者 Severin Heidrich,Till Beemelmanns,Alexey Nekrasov,Bastian Leibe,Lutz Eckstein
発行日 2025-03-13 17:50:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | OCCUQ: Exploring Efficient Uncertainty Quantification for 3D Occupancy Prediction はコメントを受け付けていません

CoSTA$\ast$: Cost-Sensitive Toolpath Agent for Multi-turn Image Editing

要約

安定した拡散やDalle-3などのテキストから画像から画像へのモデルは、マルチターン画像編集に依然として苦労しています。
さまざまなコストのAIツールによる一連のサブタスクに対処するツール使用のエージェントワークフロー(PATH)などのタスクを分解します。
従来の検索アルゴリズムには、ツールパスを見つけるために高価な探索が必要です。
大規模な言語モデル(LLMS)はサブタスク計画の事前知識を持っていますが、各サブタスクで適用する能力とツールの能力とコストの正確な推定が不足している場合があります。
LLMSとグラフ検索の両方の強度を組み合わせて、費用効率の高いツールパスを見つけることはできますか?
LLMSを活用してサブタスクツリーを作成する3段階のアプローチ「Costa*」を提案します。これは、特定のタスクのAIツールのグラフを剪定するのに役立ち、小さなサブグラフでA*検索を行い、ツールパスを見つけます。
総コストと品質のバランスを改善するために、コスタ*はすべてのサブタスクの各ツールの両方のメトリックを組み合わせて、A*検索をガイドします。
その後、各サブタスクの出力は、Vision言語モデル(VLM)によって評価され、障害によりサブタスクのツールのコストと品質の更新がトリガーされます。
したがって、A*検索は、他のパスを探索するために障害から迅速に回復する可能性があります。
さらに、Costa*は、より良いコスト品質のトレードオフを得るために、サブタスク全体のモダリティを自動的に切り替えることができます。
挑戦的なマルチターン画像編集の新しいベンチマークを構築します。コスタ*は、コストと品質の両方の点で最先端の画像編集モデルまたはエージェントを上回り、ユーザーの好みに応じて汎用性の高いトレードオフを実行します。

要約(オリジナル)

Text-to-image models like stable diffusion and DALLE-3 still struggle with multi-turn image editing. We decompose such a task as an agentic workflow (path) of tool use that addresses a sequence of subtasks by AI tools of varying costs. Conventional search algorithms require expensive exploration to find tool paths. While large language models (LLMs) possess prior knowledge of subtask planning, they may lack accurate estimations of capabilities and costs of tools to determine which to apply in each subtask. Can we combine the strengths of both LLMs and graph search to find cost-efficient tool paths? We propose a three-stage approach ‘CoSTA*’ that leverages LLMs to create a subtask tree, which helps prune a graph of AI tools for the given task, and then conducts A* search on the small subgraph to find a tool path. To better balance the total cost and quality, CoSTA* combines both metrics of each tool on every subtask to guide the A* search. Each subtask’s output is then evaluated by a vision-language model (VLM), where a failure will trigger an update of the tool’s cost and quality on the subtask. Hence, the A* search can recover from failures quickly to explore other paths. Moreover, CoSTA* can automatically switch between modalities across subtasks for a better cost-quality trade-off. We build a novel benchmark of challenging multi-turn image editing, on which CoSTA* outperforms state-of-the-art image-editing models or agents in terms of both cost and quality, and performs versatile trade-offs upon user preference.

arxiv情報

著者 Advait Gupta,NandaKiran Velaga,Dang Nguyen,Tianyi Zhou
発行日 2025-03-13 17:55:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CoSTA$\ast$: Cost-Sensitive Toolpath Agent for Multi-turn Image Editing はコメントを受け付けていません

ConsisLoRA: Enhancing Content and Style Consistency for LoRA-based Style Transfer

要約

スタイル転送には、参照画像からターゲット画像のコンテンツにスタイルを転送することが含まれます。
LORAベースの(低ランク適応)方法の最近の進歩は、単一の画像のスタイルを効果的にキャプチャすることで有望であることが示されています。
ただし、これらのアプローチは、コンテンツの不一致、スタイルの不整合、コンテンツの漏れなど、依然として重要な課題に直面しています。
この論文では、スタイル転送のコンテキストでノイズを予測することを学ぶ標準拡散パラメーター化の制限を包括的に分析します。
これらの問題に対処するために、ロラの重みを最適化してノイズではなく元の画像を予測することにより、コンテンツとスタイルの一貫性の両方を強化するLORAベースの方法であるConsisloraを紹介します。
また、参照画像からコンテンツとスタイルの学習を分離する2段階のトレーニング戦略を提案します。
コンテンツ画像のグローバル構造とローカルの詳細の両方を効果的にキャプチャするために、段階的な損失移行戦略を紹介します。
さらに、推論中のコンテンツとスタイルの強さを継続的に制御できる推論ガイダンス方法を提示します。
定性的評価と定量的評価の両方を通じて、私たちの方法は、コンテンツとスタイルの一貫性の大幅な改善を示しながら、コンテンツの漏れを効果的に削減します。

要約(オリジナル)

Style transfer involves transferring the style from a reference image to the content of a target image. Recent advancements in LoRA-based (Low-Rank Adaptation) methods have shown promise in effectively capturing the style of a single image. However, these approaches still face significant challenges such as content inconsistency, style misalignment, and content leakage. In this paper, we comprehensively analyze the limitations of the standard diffusion parameterization, which learns to predict noise, in the context of style transfer. To address these issues, we introduce ConsisLoRA, a LoRA-based method that enhances both content and style consistency by optimizing the LoRA weights to predict the original image rather than noise. We also propose a two-step training strategy that decouples the learning of content and style from the reference image. To effectively capture both the global structure and local details of the content image, we introduce a stepwise loss transition strategy. Additionally, we present an inference guidance method that enables continuous control over content and style strengths during inference. Through both qualitative and quantitative evaluations, our method demonstrates significant improvements in content and style consistency while effectively reducing content leakage.

arxiv情報

著者 Bolin Chen,Baoquan Zhao,Haoran Xie,Yi Cai,Qing Li,Xudong Mao
発行日 2025-03-13 17:55:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ConsisLoRA: Enhancing Content and Style Consistency for LoRA-based Style Transfer はコメントを受け付けていません

R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization

要約

大規模な言語モデルは、複雑なテキストタスクで顕著な推論能力を示しています。
ただし、視覚情報とテキスト情報を統合する必要があるマルチモーダル推論は、依然として重要な課題です。
既存の視覚言語モデルは、視覚コンテンツを効果的に分析し、推論するのに苦労していることが多く、複雑な推論タスクで最適ではないパフォーマンスをもたらします。
さらに、包括的なベンチマークがないことは、マルチモーダル推論能力の正確な評価を妨げます。
この論文では、視覚的知覚と深い推論の間のギャップを埋めるために設計されたマルチモーダル推論モデルであるR1-OneVisionを紹介します。
これを達成するために、画像を正式なテクスチャー表現に変換するクロスモーダル推論パイプラインを提案し、正確な言語ベースの推論を可能にします。
このパイプラインを活用すると、R1-OneVision Datasetを構築します。これにより、多様なドメイン全体で詳細な段階的なマルチモーダル推論注釈が提供されます。
さらに、高度な推論と堅牢な一般化能力を育成するための監視された微調整と強化学習を通じて、R1-OneVisionモデルをさらに開発します。
さまざまなグレードにわたってマルチモーダル推論パフォーマンスを包括的に評価するために、中学校から大学までの試験をカバーする人間の教育段階に沿ったベンチマークであるR1-OneVision-Benchを紹介します。
実験結果は、R1-OneVisionが、複数の挑戦的なマルチモーダル推論ベンチマークでGPT-4OやQWEN2.5-VLなどの最先端のパフォーマンス、アウトパフォーマンスモデルを達成することを示しています。

要約(オリジナル)

Large Language Models have demonstrated remarkable reasoning capability in complex textual tasks. However, multimodal reasoning, which requires integrating visual and textual information, remains a significant challenge. Existing visual-language models often struggle to effectively analyze and reason visual content, resulting in suboptimal performance on complex reasoning tasks. Moreover, the absence of comprehensive benchmarks hinders the accurate assessment of multimodal reasoning capabilities. In this paper, we introduce R1-Onevision, a multimodal reasoning model designed to bridge the gap between visual perception and deep reasoning. To achieve this, we propose a cross-modal reasoning pipeline that transforms images into formal textural representations, enabling precise language-based reasoning. Leveraging this pipeline, we construct the R1-Onevision dataset which provides detailed, step-by-step multimodal reasoning annotations across diverse domains. We further develop the R1-Onevision model through supervised fine-tuning and reinforcement learning to cultivate advanced reasoning and robust generalization abilities. To comprehensively evaluate multimodal reasoning performance across different grades, we introduce R1-Onevision-Bench, a benchmark aligned with human educational stages, covering exams from junior high school to university and beyond. Experimental results show that R1-Onevision achieves state-of-the-art performance, outperforming models such as GPT-4o and Qwen2.5-VL on multiple challenging multimodal reasoning benchmarks.

arxiv情報

著者 Yi Yang,Xiaoxuan He,Hongkun Pan,Xiyan Jiang,Yan Deng,Xingtao Yang,Haoyu Lu,Dacheng Yin,Fengyun Rao,Minfeng Zhu,Bo Zhang,Wei Chen
発行日 2025-03-13 17:56:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization はコメントを受け付けていません