Radiant Triangle Soup with Soft Connectivity Forces for 3D Reconstruction and Novel View Synthesis

要約

この作業では、シーンのジオメトリと外観を表すために三角形を使用した推論時間最適化フレームワークを紹介します。
より具体的には、切断された半透明の三角形のプリミティブのコレクションであるTriangle Soupのシーン最適化アルゴリズムを開発します。
3Dシーン表現のために現在の最も幅広く使用されているプリミティブ、すなわちガウススプラット、三角形はより表現力のある色補間を可能にし、下流タスクの大きなアルゴリズムインフラストラクチャの恩恵を受けます。
トライアングルは、フルランクのガウス核とは異なり、自然に組み合わせて表面を形成します。
最適化中に三角形間の接続力を定式化し、3Dで明示的であるが柔らかい表面連続性を促進します。
代表的な3D再構成データセットで実験を行い、競合する測光および幾何学的結果を示します。

要約(オリジナル)

In this work, we introduce an inference-time optimization framework utilizing triangles to represent the geometry and appearance of the scene. More specifically, we develop a scene optimization algorithm for triangle soup, a collection of disconnected semi-transparent triangle primitives. Compared to the current most-widely used primitives for 3D scene representation, namely Gaussian splats, triangles allow for more expressive color interpolation, and benefit from a large algorithmic infrastructure for downstream tasks. Triangles, unlike full-rank Gaussian kernels, naturally combine to form surfaces. We formulate connectivity forces between triangles during optimization, encouraging explicit, but soft, surface continuity in 3D. We perform experiments on a representative 3D reconstruction dataset and show competitive photometric and geometric results.

arxiv情報

著者 Nathaniel Burgdorfer,Philippos Mordohai
発行日 2025-05-29 16:50:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Radiant Triangle Soup with Soft Connectivity Forces for 3D Reconstruction and Novel View Synthesis はコメントを受け付けていません

Merge-Friendly Post-Training Quantization for Multi-Target Domain Adaptation

要約

モデルのマージは、タスク固有の重みを組み合わせて、マルチターゲットドメイン適応で優れたパフォーマンスを達成するための強力な手法として浮上しています。
ただし、量子化モデルなどの実際のシナリオに適用すると、新しい課題が生じます。
実際のシナリオでは、量子化はターゲット固有のデータにしばしば適用されますが、このプロセスは目的の領域を制限し、離散化効果を導入し、モデルを非常に非自明のマージにします。
この研究では、エラー障壁のレンズを介したモデルのマージに及ぼす量子化の影響を分析します。
これらの洞察を活用して、トレーニング後の新しい量子化、HDRQ(ヘシアンおよび遠い正規化量子化)を提案します。
私たちのアプローチにより、量子化プロセスがソースの事前トレーニングモデルからの最小限の偏差を保証し、滑らかなモデルのマージを促進するために損失面を平坦化します。
私たちの知る限り、これはこの課題に関する最初の研究であり、広範な実験はその有効性を確認します。

要約(オリジナル)

Model merging has emerged as a powerful technique for combining task-specific weights, achieving superior performance in multi-target domain adaptation. However, when applied to practical scenarios, such as quantized models, new challenges arise. In practical scenarios, quantization is often applied to target-specific data, but this process restricts the domain of interest and introduces discretization effects, making model merging highly non-trivial. In this study, we analyze the impact of quantization on model merging through the lens of error barriers. Leveraging these insights, we propose a novel post-training quantization, HDRQ – Hessian and distant regularizing quantization – that is designed to consider model merging for multi-target domain adaptation. Our approach ensures that the quantization process incurs minimal deviation from the source pre-trained model while flattening the loss surface to facilitate smooth model merging. To our knowledge, this is the first study on this challenge, and extensive experiments confirm its effectiveness.

arxiv情報

著者 Juncheol Shin,Minsang Seok,Seonggon Kim,Eunhyeok Park
発行日 2025-05-29 17:00:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Merge-Friendly Post-Training Quantization for Multi-Target Domain Adaptation はコメントを受け付けていません

VideoREPA: Learning Physics for Video Generation through Relational Alignment with Foundation Models

要約

テキストからビデオへの最近の進歩(T2V)拡散モデルにより、忠実で現実的なビデオ統合が可能になりました。
ただし、現在のT2Vモデルは、物理学を正確に理解するための固有の能力が限られているため、物理的にもっともらしいコンテンツを生成するのに苦労しています。
T2Vモデル内の表現は物理学の理解のためのある程度の能力を持っているが、最近のビデオ自己監視学習方法のそれにかなり遅れていることがわかった。
この目的のために、VideorePAと呼ばれる新しいフレームワークを提案します。これは、Tokenレベルの関係を調整することにより、Videy Understing FoundationモデルからT2Vモデルに物理的理解能力を蒸留することを提案します。
これにより、物理学の理解のギャップが閉じられ、より多くの物理学に優れた生成が可能になります。
具体的には、トークン関係の蒸留(TRD)損失を導入し、時空間アライメントを活用して、強力な訓練を受けたT2Vモデルを微調整するのに適したソフトガイダンスを提供します。
私たちの知る限り、VideorePAは、T2Vモデルの微調整、特に物理的知識を注入するために設計された最初のレパートメソッドです。
経験的評価は、Videorepaがベースライン法であるCogvideoxの物理学の常識を大幅に強化し、関連するベンチマークの大幅な改善を達成し、直感的な物理学と一致するビデオを生成する強力な能力を実証することを示しています。
その他のビデオ結果は、https://videorepa.github.io/で入手できます。

要約(オリジナル)

Recent advancements in text-to-video (T2V) diffusion models have enabled high-fidelity and realistic video synthesis. However, current T2V models often struggle to generate physically plausible content due to their limited inherent ability to accurately understand physics. We found that while the representations within T2V models possess some capacity for physics understanding, they lag significantly behind those from recent video self-supervised learning methods. To this end, we propose a novel framework called VideoREPA, which distills physics understanding capability from video understanding foundation models into T2V models by aligning token-level relations. This closes the physics understanding gap and enable more physics-plausible generation. Specifically, we introduce the Token Relation Distillation (TRD) loss, leveraging spatio-temporal alignment to provide soft guidance suitable for finetuning powerful pre-trained T2V models, a critical departure from prior representation alignment (REPA) methods. To our knowledge, VideoREPA is the first REPA method designed for finetuning T2V models and specifically for injecting physical knowledge. Empirical evaluations show that VideoREPA substantially enhances the physics commonsense of baseline method, CogVideoX, achieving significant improvement on relevant benchmarks and demonstrating a strong capacity for generating videos consistent with intuitive physics. More video results are available at https://videorepa.github.io/.

arxiv情報

著者 Xiangdong Zhang,Jiaqi Liao,Shaofeng Zhang,Fanqing Meng,Xiangpeng Wan,Junchi Yan,Yu Cheng
発行日 2025-05-29 17:06:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | VideoREPA: Learning Physics for Video Generation through Relational Alignment with Foundation Models はコメントを受け付けていません

D-AR: Diffusion via Autoregressive Models

要約

このホワイトペーパーでは、標準の次のトークン予測のファッションでのバニラの自己回帰手順として画像拡散プロセスを再構築する新しいパラダイムであるAutore-Gurishing Models(D-AR)を介した拡散を示します。
画像を離散トークンのシーケンスに変換するトークンザーを設計することから始めます。ここでは、異なる位置のトークンをピクセル空間の異なる拡散除去ステップにデコードできます。
拡散特性のおかげで、これらのトークンは自然に粗から洗練された順序に続き、自己回帰モデリングに直接貸します。
したがって、基礎となる設計(因果マスクまたはトレーニング/推論戦略のいずれか)を変更せずに、これらのトークンに標準の次のトークン予測を適用し、そのような順次自動回復トークン生成は、画像空間の拡散手順を直接反映しています。
つまり、自動脱着モデルがトークンの増分を生成すると、これらのトークンをストリーミング方法で対応する拡散除去ステップに直接デコードできます。
私たちのパイプラインは自然にいくつかの興味をそそるプロパティを明らかにします。たとえば、トークンのサブセットのみを生成するときに一貫したプレビューをサポートし、ゼロショットレイアウト制御合成を有効にします。
標準のImagenetベンチマークでは、256個の離散トークンを備えた775m Llamaバックボーンを使用して、2.09 FIDを達成します。
私たちの作品が、特に大規模な言語モデルを使用した視覚合成の統一された自己回帰アーキテクチャに関する将来の研究を刺激できることを願っています。
コードとモデルはhttps://github.com/showlab/d-arで入手できます

要約(オリジナル)

This paper presents Diffusion via Autoregressive models (D-AR), a new paradigm recasting the image diffusion process as a vanilla autoregressive procedure in the standard next-token-prediction fashion. We start by designing the tokenizer that converts images into sequences of discrete tokens, where tokens in different positions can be decoded into different diffusion denoising steps in the pixel space. Thanks to the diffusion properties, these tokens naturally follow a coarse-to-fine order, which directly lends itself to autoregressive modeling. Therefore, we apply standard next-token prediction on these tokens, without modifying any underlying designs (either causal masks or training/inference strategies), and such sequential autoregressive token generation directly mirrors the diffusion procedure in image space. That is, once the autoregressive model generates an increment of tokens, we can directly decode these tokens into the corresponding diffusion denoising step in the streaming manner. Our pipeline naturally reveals several intriguing properties, for example, it supports consistent previews when generating only a subset of tokens and enables zero-shot layout-controlled synthesis. On the standard ImageNet benchmark, our method achieves 2.09 FID using a 775M Llama backbone with 256 discrete tokens. We hope our work can inspire future research on unified autoregressive architectures of visual synthesis, especially with large language models. Code and models will be available at https://github.com/showlab/D-AR

arxiv情報

著者 Ziteng Gao,Mike Zheng Shou
発行日 2025-05-29 17:09:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | D-AR: Diffusion via Autoregressive Models はコメントを受け付けていません

OpenUni: A Simple Baseline for Unified Multimodal Understanding and Generation

要約

このレポートでは、マルチモーダルの理解と生成を統合するためのシンプルで軽量で完全にオープンソースのベースラインであるOpenuniを紹介します。
統一されたモデル学習における一般的なプラクティスに触発された私たちは、学習可能なクエリと軽量のトランスベースのコネクタを介して、既製のマルチモーダル大手言語モデル(LLMS)と拡散モデルを橋渡しすることにより、トレーニングの複雑さとオーバーヘッドを最小限に抑える効率的なトレーニング戦略を採用します。
アーキテクチャの最小限の選択により、Openuniは次のことを実証します。1)高品質および命令整列画像を生成し、2)Geneval、DPG-Bench、Wiseなどの標準ベンチマークで優れたパフォーマンスを実現し、1.1bおよび3.1bのアクティブ化されたパラメーターのみを備えています。
オープンな研究とコミュニティの進歩をサポートするために、https://github.com/wusize/openuniで、すべてのモデルの重み、トレーニングコード、キュレーションされたトレーニングデータセット(23mの画像テキストペアを含む)をリリースします。

要約(オリジナル)

In this report, we present OpenUni, a simple, lightweight, and fully open-source baseline for unifying multimodal understanding and generation. Inspired by prevailing practices in unified model learning, we adopt an efficient training strategy that minimizes the training complexity and overhead by bridging the off-the-shelf multimodal large language models (LLMs) and diffusion models through a set of learnable queries and a light-weight transformer-based connector. With a minimalist choice of architecture, we demonstrate that OpenUni can: 1) generate high-quality and instruction-aligned images, and 2) achieve exceptional performance on standard benchmarks such as GenEval, DPG- Bench, and WISE, with only 1.1B and 3.1B activated parameters. To support open research and community advancement, we release all model weights, training code, and our curated training datasets (including 23M image-text pairs) at https://github.com/wusize/OpenUni.

arxiv情報

著者 Size Wu,Zhonghua Wu,Zerui Gong,Qingyi Tao,Sheng Jin,Qinyue Li,Wei Li,Chen Change Loy
発行日 2025-05-29 17:09:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | OpenUni: A Simple Baseline for Unified Multimodal Understanding and Generation はコメントを受け付けていません

SIGHT: Synthesizing Image-Text Conditioned and Geometry-Guided 3D Hand-Object Trajectories

要約

人間がオブジェクトを把握するとき、彼らは自然に心の中で軌跡を形成して、特定のタスクのためにそれを操作します。
ハンドオブジェクトの相互作用のモデリングは、物理世界で効果的に動作することを学習するために、ロボットおよび具体化されたAIシステムを前進させる重要な可能性を秘めています。
視力を紹介します。これは、単一の画像と簡単な言語ベースのタスク説明から現実的で肉体的にもっともらしい3Dハンドオブジェクト相互作用の軌跡を生成することに焦点を当てた新しいタスクです。
ハンドオブジェクトの軌道の以前の作業は、通常、ターゲットオブジェクトへの明示的な接地がないテキスト入力に依存しているか、3Dオブジェクトメッシュへのアクセスを想定しています。
データベースから最も類似した3Dオブジェクトメッシュを取得し、新しい推論時間拡散ガイダンスを介して幾何学的なハンドオブジェクト相互作用の制約を施行することにより、このタスクに取り組む新しい拡散ベースの画像テキスト条件付けされた生成モデルである視力融合を提案します。
HOI4DおよびH2Oデータセットにモデルをベンチマークし、この新しいタスクに関連するベースラインを適応させます。
実験は、生成された軌道の多様性と品質、および手観オブジェクトの相互作用ジオメトリメトリックの優れたパフォーマンスを示しています。

要約(オリジナル)

When humans grasp an object, they naturally form trajectories in their minds to manipulate it for specific tasks. Modeling hand-object interaction priors holds significant potential to advance robotic and embodied AI systems in learning to operate effectively within the physical world. We introduce SIGHT, a novel task focused on generating realistic and physically plausible 3D hand-object interaction trajectories from a single image and a brief language-based task description. Prior work on hand-object trajectory generation typically relies on textual input that lacks explicit grounding to the target object, or assumes access to 3D object meshes, which are often considerably more difficult to obtain than 2D images. We propose SIGHT-Fusion, a novel diffusion-based image-text conditioned generative model that tackles this task by retrieving the most similar 3D object mesh from a database and enforcing geometric hand-object interaction constraints via a novel inference-time diffusion guidance. We benchmark our model on the HOI4D and H2O datasets, adapting relevant baselines for this novel task. Experiments demonstrate our superior performance in the diversity and quality of generated trajectories, as well as in hand-object interaction geometry metrics.

arxiv情報

著者 Alexey Gavryushin,Alexandros Delitzas,Luc Van Gool,Marc Pollefeys,Kaichun Mo,Xi Wang
発行日 2025-05-29 17:11:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SIGHT: Synthesizing Image-Text Conditioned and Geometry-Guided 3D Hand-Object Trajectories はコメントを受け付けていません

ImmunoDiff: A Diffusion Model for Immunotherapy Response Prediction in Lung Cancer

要約

非小細胞肺癌(NSCLC)における免疫療法反応を正確に予測することは、依然として満たされていない重要なニーズです。
既存の放射線と深い学習ベースの予測モデルは、主に治療前のイメージングに依存してカテゴリの反応結果を予測し、免疫療法によって誘発される複雑な形態学的およびテクスチャー変換を捕捉する能力を制限します。
この研究では、臨床的に関連する制約を組み込んでいる間、ベースラインイメージングからの治療後のCTスキャンを合成するように設計された解剖学的認識拡散モデルであるImmunodiffを紹介します。
提案されたフレームワークは、CT合成の忠実度を高めるために、解剖学的前層、特にロバーおよび血管構造を統合します。
さらに、生成プロセスを改良するために、画像と臨床データの埋め込みのペアワイズ整合性マルチモーダル統合を保証するコンディショニングモジュールである新しいCBI-Adapterを紹介します。
さらに、臨床可変条件付けメカニズムが導入され、人口統計データ、血液ベースのバイオマーカー、およびPD-L1発現を活用して、生成プロセスを改良します。
免疫チェックポイント阻害剤で治療された社内のNSCLCコホートの評価は、応答予測のバランスの良い精度の21.24%の改善と、生存予測のCインデックスの0.03増加を示しています。
コードはまもなくリリースされます。

要約(オリジナル)

Accurately predicting immunotherapy response in Non-Small Cell Lung Cancer (NSCLC) remains a critical unmet need. Existing radiomics and deep learning-based predictive models rely primarily on pre-treatment imaging to predict categorical response outcomes, limiting their ability to capture the complex morphological and textural transformations induced by immunotherapy. This study introduces ImmunoDiff, an anatomy-aware diffusion model designed to synthesize post-treatment CT scans from baseline imaging while incorporating clinically relevant constraints. The proposed framework integrates anatomical priors, specifically lobar and vascular structures, to enhance fidelity in CT synthesis. Additionally, we introduce a novel cbi-Adapter, a conditioning module that ensures pairwise-consistent multimodal integration of imaging and clinical data embeddings, to refine the generative process. Additionally, a clinical variable conditioning mechanism is introduced, leveraging demographic data, blood-based biomarkers, and PD-L1 expression to refine the generative process. Evaluations on an in-house NSCLC cohort treated with immune checkpoint inhibitors demonstrate a 21.24% improvement in balanced accuracy for response prediction and a 0.03 increase in c-index for survival prediction. Code will be released soon.

arxiv情報

著者 Moinak Bhattacharya,Judy Huang,Amna F. Sher,Gagandeep Singh,Chao Chen,Prateek Prasanna
発行日 2025-05-29 17:19:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ImmunoDiff: A Diffusion Model for Immunotherapy Response Prediction in Lung Cancer はコメントを受け付けていません

Grounded Reinforcement Learning for Visual Reasoning

要約

思考チェーンを介した強化学習(RL)は、数学やコーディングなどのタスクで大幅に高度な言語モデルを持っていますが、視覚的推論は、モデルに視覚的注意を向け、知覚入力を解釈し、空間証拠の抽象的な推論を解釈することを要求することにより、追加の複雑さをもたらします。
RLで訓練されたビジョン言語モデルであるVigorl(視覚的に接地された強化学習)を紹介し、各推論ステップを特定の視覚座標に明示的に固定します。
人間の視覚的な意思決定に触発されたVigorlは、空間的に接地された推論の痕跡を生み出すことを学び、各ステップでタスク関連の領域に視覚的な注意を導きます。
細粒の探索が必要な場合、私たちの新しいマルチターンRLフレームワークにより、推論が展開するにつれて、モデルは予測座標に動的にズームインすることができます。
SAT-2を含む視覚的推論ベンチマークの多様なセットを横切って、空間的推論のための瞬き、V*ベンチの視覚検索のベンチ、Webベースの接地のためのScreenspotとVisualWebarenaは、監視された微調整と従来のRLベースラインの両方を一貫して上回ります。
マルチターンRLをズームインビジュアルフィードバックに組み込むことで、Vigorlの小さなGUI要素のローカル化と視覚検索に関するパフォーマンスが大幅に向上し、V*ベンチで86.4%を達成します。
さらに、接地は、地域の探索、接地されたサブゴール設定、視覚的検証など、他の視覚行動を増幅することがわかります。
最後に、人間の評価は、モデルの視覚的参照が空間的に正確であるだけでなく、モデルの推論ステップを理解するのにも役立つことを示しています。
我々の結果は、視覚的に接地されたRLが、一般的な視覚的推論にモデルを吸収するための強力なパラダイムであることを示しています。

要約(オリジナル)

While reinforcement learning (RL) over chains of thought has significantly advanced language models in tasks such as mathematics and coding, visual reasoning introduces added complexity by requiring models to direct visual attention, interpret perceptual inputs, and ground abstract reasoning in spatial evidence. We introduce ViGoRL (Visually Grounded Reinforcement Learning), a vision-language model trained with RL to explicitly anchor each reasoning step to specific visual coordinates. Inspired by human visual decision-making, ViGoRL learns to produce spatially grounded reasoning traces, guiding visual attention to task-relevant regions at each step. When fine-grained exploration is required, our novel multi-turn RL framework enables the model to dynamically zoom into predicted coordinates as reasoning unfolds. Across a diverse set of visual reasoning benchmarks–including SAT-2 and BLINK for spatial reasoning, V*bench for visual search, and ScreenSpot and VisualWebArena for web-based grounding–ViGoRL consistently outperforms both supervised fine-tuning and conventional RL baselines that lack explicit grounding mechanisms. Incorporating multi-turn RL with zoomed-in visual feedback significantly improves ViGoRL’s performance on localizing small GUI elements and visual search, achieving 86.4% on V*Bench. Additionally, we find that grounding amplifies other visual behaviors such as region exploration, grounded subgoal setting, and visual verification. Finally, human evaluations show that the model’s visual references are not only spatially accurate but also helpful for understanding model reasoning steps. Our results show that visually grounded RL is a strong paradigm for imbuing models with general-purpose visual reasoning.

arxiv情報

著者 Gabriel Sarch,Snigdha Saha,Naitik Khandelwal,Ayush Jain,Michael J. Tarr,Aviral Kumar,Katerina Fragkiadaki
発行日 2025-05-29 17:20:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Grounded Reinforcement Learning for Visual Reasoning はコメントを受け付けていません

CVOCSemRPL: Class-Variance Optimized Clustering, Semantic Information Injection and Restricted Pseudo Labeling based Improved Semi-Supervised Few-Shot Learning

要約

いくつかのショット学習は、一部のクラスでラベル付けされたサンプルの量が非常に限られている問題に対処するために広範囲に調査されています。
半監督の少数の学習設定では、かなりの量の非標識サンプルが利用可能です。
このような非標識サンプルは、一般に取得がより安価であり、モデルの少数の学習パフォーマンスを改善するために使用できます。
この設定の最近の方法のいくつかは、クラスタリングに依存して、非標識サンプルの擬似ラベルを生成します。
クラスタリングの有効性は、非標識サンプルのラベル付けに大きく影響するため、少数の学習パフォーマンスに大きな影響を与える可能性があります。
このホワイトペーパーでは、クラスタリングとその結果、モデルのパフォーマンスを改善するために、モデルによって学習された表現の改善に焦点を当てています。
この設定でラベル付けされたサンプルと非標識サンプルをクラスタリングする効果を向上させるために、クラスター分離チューナーと組み合わせたクラスの分散クラスタリングを実行する半監督の少数の学習のアプローチを提案します。
また、制限された擬似標識アプローチを使用してクラスタリングベースの擬似標識プロセスを最適化し、モデルの半監視された少数の学習パフォーマンスを改善するためにセマンティック情報インジェクションを実行します。
提案されたアプローチは、ベンチマークデータセットで最近の最新の方法を大幅に上回ることを実験的に実証します。

要約(オリジナル)

Few-shot learning has been extensively explored to address problems where the amount of labeled samples is very limited for some classes. In the semi-supervised few-shot learning setting, substantial quantities of unlabeled samples are available. Such unlabeled samples are generally cheaper to obtain and can be used to improve the few-shot learning performance of the model. Some of the recent methods for this setting rely on clustering to generate pseudo-labels for the unlabeled samples. Since the effectiveness of clustering heavily influences the labeling of the unlabeled samples, it can significantly affect the few-shot learning performance. In this paper, we focus on improving the representation learned by the model in order to improve the clustering and, consequently, the model performance. We propose an approach for semi-supervised few-shot learning that performs a class-variance optimized clustering coupled with a cluster separation tuner in order to improve the effectiveness of clustering the labeled and unlabeled samples in this setting. It also optimizes the clustering-based pseudo-labeling process using a restricted pseudo-labeling approach and performs semantic information injection in order to improve the semi-supervised few-shot learning performance of the model. We experimentally demonstrate that our proposed approach significantly outperforms recent state-of-the-art methods on the benchmark datasets.

arxiv情報

著者 Souvik Maji,Rhythm Baghel,Pratik Mazumder
発行日 2025-05-29 17:23:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CVOCSemRPL: Class-Variance Optimized Clustering, Semantic Information Injection and Restricted Pseudo Labeling based Improved Semi-Supervised Few-Shot Learning はコメントを受け付けていません

BrainMRDiff: A Diffusion Model for Anatomically Consistent Brain MRI Synthesis

要約

正確な脳腫瘍診断は、複数の磁気共鳴画像(MRI)配列の評価に依存しています。
ただし、臨床診療では、特定のシーケンスの獲得は、モーションアーティファクトや造影剤の禁忌などの要因の影響を受ける可能性があり、画質が低いなどの最適ではない結果につながります。
これは、放射線科医による画像解釈に影響を与える可能性があります。
したがって、高品質のMRIシーケンスを合成することは、重要な研究の焦点になりました。
制御可能な生成AIの最近の進歩により、診断品質MRIの合成が促進されましたが、解剖学的精度を確保することは依然として重要な課題です。
異なる解剖学的領域間の重要な構造的関係を保存することが不可欠です。マイナーな構造的またはトポロジー的な矛盾でさえ、診断の妥当性を損なう可能性があるためです。
この作業では、脳MRIを合成し、脳および腫瘍の解剖学を条件付け入力として活用するための新しいトポロジーを摂取する、解剖学的誘導拡散モデルであるBrainmrdiffを提案します。
これを達成するために、腫瘍+構造集約(TSA)とトポロジー誘導解剖学(TGAP)の2つの重要なモジュールを紹介します。
TSAは、多様な解剖学的構造を腫瘍情報と統合し、拡散プロセスの包括的な条件付けメカニズムを形成します。
TGAPは、逆除去拡散プロセス中にトポロジーの一貫性を実施します。
これらの両方のモジュールは、生成された画像が解剖学的完全性を尊重することを保証します。
実験結果は、Brainmrdiffが既存のベースラインを上回り、Brats-Agデータセットで23.33%、Brats-Metデータセットで33.33%のパフォーマンスの改善を達成することを示しています。
コードはまもなく公開されます。

要約(オリジナル)

Accurate brain tumor diagnosis relies on the assessment of multiple Magnetic Resonance Imaging (MRI) sequences. However, in clinical practice, the acquisition of certain sequences may be affected by factors like motion artifacts or contrast agent contraindications, leading to suboptimal outcome, such as poor image quality. This can then affect image interpretation by radiologists. Synthesizing high quality MRI sequences has thus become a critical research focus. Though recent advancements in controllable generative AI have facilitated the synthesis of diagnostic quality MRI, ensuring anatomical accuracy remains a significant challenge. Preserving critical structural relationships between different anatomical regions is essential, as even minor structural or topological inconsistencies can compromise diagnostic validity. In this work, we propose BrainMRDiff, a novel topology-preserving, anatomy-guided diffusion model for synthesizing brain MRI, leveraging brain and tumor anatomies as conditioning inputs. To achieve this, we introduce two key modules: Tumor+Structure Aggregation (TSA) and Topology-Guided Anatomy Preservation (TGAP). TSA integrates diverse anatomical structures with tumor information, forming a comprehensive conditioning mechanism for the diffusion process. TGAP enforces topological consistency during reverse denoising diffusion process; both these modules ensure that the generated image respects anatomical integrity. Experimental results demonstrate that BrainMRDiff surpasses existing baselines, achieving performance improvements of 23.33% on the BraTS-AG dataset and 33.33% on the BraTS-Met dataset. Code will be made publicly available soon.

arxiv情報

著者 Moinak Bhattacharya,Saumya Gupta,Annie Singh,Chao Chen,Gagandeep Singh,Prateek Prasanna
発行日 2025-05-29 17:23:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | BrainMRDiff: A Diffusion Model for Anatomically Consistent Brain MRI Synthesis はコメントを受け付けていません