Translation-Equivariance of Normalization Layers and Aliasing in Convolutional Neural Networks

要約

連続的な翻訳と正確に同等の畳み込み神経アーキテクチャの設計は、研究の積極的な分野です。
特に既存のイメージングシステムをより物理的に正確にすることにより、科学的コンピューティングに利益をもたらすことを約束します。
ほとんどの努力は、ダウンサンプリング/プーリングレイヤー、アップサンプリング層、活性化機能の設計に焦点を当てていますが、正規化層にはほとんど注意が払われていません。
この作業では、正規化層と個別のシフトと連続翻訳への等寛容を理解するための新しい理論的枠組みを提示します。
また、正規化層が動作するディメンションの観点から等しくなるために必要かつ十分な条件を決定します。
ResNet-18とImagenetの実際の機能マップを使用して、これらの理論的結果を経験的にテストし、予測と一致していることがわかります。

要約(オリジナル)

The design of convolutional neural architectures that are exactly equivariant to continuous translations is an active field of research. It promises to benefit scientific computing, notably by making existing imaging systems more physically accurate. Most efforts focus on the design of downsampling/pooling layers, upsampling layers and activation functions, but little attention is dedicated to normalization layers. In this work, we present a novel theoretical framework for understanding the equivariance of normalization layers to discrete shifts and continuous translations. We also determine necessary and sufficient conditions for normalization layers to be equivariant in terms of the dimensions they operate on. Using real feature maps from ResNet-18 and ImageNet, we test those theoretical results empirically and find that they are consistent with our predictions.

arxiv情報

著者 Jérémy Scanvic,Quentin Barthélemy,Julián Tachella
発行日 2025-06-18 14:51:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Translation-Equivariance of Normalization Layers and Aliasing in Convolutional Neural Networks はコメントを受け付けていません

NTIRE 2025 Image Shadow Removal Challenge Report

要約

この作業では、NTIRE 2025 Shadow Removal Challengeの調査結果を調べます。
合計306人の参加者が登録しており、17チームが最終評価段階でソリューションを正常に提出しました。
最後の2つのエディションに続いて、この課題には2つの評価トラックがありました。1つは再構築の忠実度に焦点を当て、もう1つはユーザー調査を通じて視覚的認識に焦点を当てています。
両方のトラックは、WSRD+データセットの画像で評価され、多数の多様なオブジェクト、テクスチャ、および素材を使用して、セルフとキャストシャドウの間の相互作用をシミュレートしました。

要約(オリジナル)

This work examines the findings of the NTIRE 2025 Shadow Removal Challenge. A total of 306 participants have registered, with 17 teams successfully submitting their solutions during the final evaluation phase. Following the last two editions, this challenge had two evaluation tracks: one focusing on reconstruction fidelity and the other on visual perception through a user study. Both tracks were evaluated with images from the WSRD+ dataset, simulating interactions between self- and cast-shadows with a large number of diverse objects, textures, and materials.

arxiv情報

著者 Florin-Alexandru Vasluianu,Tim Seizinger,Zhuyun Zhou,Cailian Chen,Zongwei Wu,Radu Timofte,Mingjia Li,Jin Hu,Hainuo Wang,Hengxing Liu,Jiarui Wang,Qiming Hu,Xiaojie Guo,Xin Lu,Jiarong Yang,Yuanfei Bao,Anya Hu,Zihao Fan,Kunyu Wang,Jie Xiao,Xi Wang,Xueyang Fu,Zheng-Jun Zha,Yu-Fan Lin,Chia-Ming Lee,Chih-Chung Hsu,Xingbo Wang,Dong Li,Yuxu Chen,Bin Chen,Yuanbo Zhou,Yuanbin Chen,Hongwei Wang,Jiannan Lin,Qinquan Gao,Tong Tong,Zhao Zhang,Yanyan Wei,Wei Dong,Han Zhou,Seyed Amirreza Mousavi,Jun Chen,Haobo Liang,Jiajie Jing,Junyu Li,Yan Yang,Seoyeon Lee,Chaewon Kim,Ziyu Feng,Shidi Chen,Bowen Luan,Zewen Chen,Vijayalaxmi Ashok Aralikatti,G Gyaneshwar Rao,Nikhil Akalwadi,Chaitra Desai,Ramesh Ashok Tabib,Uma Mudenagudi,Anas M. Ali,Bilel Benjdira,Wadii Boulila,Alexandru Brateanu,Cosmin Ancuti,Tanmay Chaturvedi,Manish Kumar,Anmol Srivastav,Daksh Trivedi,Shashwat Thakur,Kishor Upla,Zeyu Xiao,Zhuoyuan Li,Boda Zhou,Shashank Shekhar,Kele Xu,Qisheng Xu,Zijian Gao,Tianjiao Wan,Suiyi Zhao,Bo Wang,Yan Luo,Mingshen Wang,Yilin Zhang
発行日 2025-06-18 14:58:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | NTIRE 2025 Image Shadow Removal Challenge Report はコメントを受け付けていません

EgoBlind: Towards Egocentric Visual Assistance for the Blind

要約

視覚障害者から収集された最初のエゴセントリックビデオデータセットであるegoblindを提示し、現代のマルチモーダル大手言語モデル(MLLM)の支援能力を評価します。
EgoBlind comprises 1,392 videos that record the daily lives of real blind users from a first-person perspective.
また、さまざまなシナリオの下で視覚援助のための摂取ニーズを反映するために、視覚障害者によって直接提起または生成および検証された5,311の質問を特徴としています。
主観的評価を軽減するために、各質問を平均3つの参照回答と提供します。
egoblindを使用して、16の高度なMLLMを包括的に評価し、すべてのモデルが苦労していることがわかります。最高のパフォーマンスは、60 \%近くで正確さを達成し、87.4 \%の人間のパフォーマンスにはるかに遅れています。
将来の進歩を導くために、盲人のためのエゴセントリックな視覚援助における既存のMLLMの主要な制限を特定し、要約し、改善のためのヒューリスティックソリューションを探求します。
これらの努力により、egoblindが盲目の個人の生活の独立を強化するために、より効果的なAIアシスタントを開発するための貴重な基盤として役立つことを願っています。
データと評価コードはhttps://github.com/doc-doc/egoblindで入手できます。

要約(オリジナル)

We present EgoBlind, the first egocentric VideoQA dataset collected from blind individuals to evaluate the assistive capabilities of contemporary multimodal large language models (MLLMs). EgoBlind comprises 1,392 videos that record the daily lives of real blind users from a first-person perspective. It also features 5,311 questions directly posed or generated and verified by blind individuals to reflect their in-situation needs for visual assistance under various scenarios. We provide each question with an average of 3 reference answers to alleviate subjective evaluation. Using EgoBlind, we comprehensively evaluate 16 advanced MLLMs and find that all models struggle, with the best performers achieving accuracy near 60\%, far behind human performance of 87.4\%. To guide future advancements, we identify and summarize major limitations of existing MLLMs in egocentric visual assistance for the blind and explore heuristic solutions for improvement. With these efforts, we hope EgoBlind can serve as a valuable foundation for developing more effective AI assistants to enhance the independence of the blind individuals’ lives. Data and evaluation code are available at https://github.com/doc-doc/EgoBlind.

arxiv情報

著者 Junbin Xiao,Nanxin Huang,Hao Qiu,Zhulin Tao,Xun Yang,Richang Hong,Meng Wang,Angela Yao
発行日 2025-06-18 15:03:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM | EgoBlind: Towards Egocentric Visual Assistance for the Blind はコメントを受け付けていません

A Comprehensive Survey on Continual Learning in Generative Models

要約

生成モデルの急速な進歩により、最新のAIシステムは、特定のドメインで人間レベルのパフォーマンスを達成することさえ、非常に洗練されたコンテンツを理解し、生成することができました。
ただし、これらのモデルは壊滅的な忘却によって根本的に制約されたままです。これは、新しいタスクに適応することで、以前に学習されたタスクのパフォーマンスの大幅な分解につながる永続的な課題です。
この実際的な制限に対処するために、実際のアプリケーションでの生成モデルの適応性とスケーラビリティを高めるために、多くのアプローチが提案されています。
この作業では、大規模な言語モデル、マルチモーダル大手言語モデル、ビジョン言語アクションモデル、拡散モデルなど、主流の生成モデルの継続的な学習方法に関する包括的な調査を紹介します。
人間の脳の記憶メカニズムからインスピレーションを得て、これらのアプローチを体系的に3つのパラダイムに分類します:アーキテクチャベース、正規化ベース、およびリプレイベースの方法、そして根本的な方法論と動機を解明します。
さらに、トレーニング目標、ベンチマーク、コアバックボーンなど、さまざまな生成モデルの継続的な学習セットアップを分析し、フィールドに関するより深い洞察を提供します。
このペーパーのプロジェクトページは、https://github.com/ghy0501/awesome-continual-rearning-in-generative-modelsで入手できます。

要約(オリジナル)

The rapid advancement of generative models has enabled modern AI systems to comprehend and produce highly sophisticated content, even achieving human-level performance in specific domains. However, these models remain fundamentally constrained by catastrophic forgetting – a persistent challenge where adapting to new tasks typically leads to significant degradation in performance on previously learned tasks. To address this practical limitation, numerous approaches have been proposed to enhance the adaptability and scalability of generative models in real-world applications. In this work, we present a comprehensive survey of continual learning methods for mainstream generative models, including large language models, multimodal large language models, vision language action models, and diffusion models. Drawing inspiration from the memory mechanisms of the human brain, we systematically categorize these approaches into three paradigms: architecture-based, regularization-based, and replay-based methods, while elucidating their underlying methodologies and motivations. We further analyze continual learning setups for different generative models, including training objectives, benchmarks, and core backbones, offering deeper insights into the field. The project page of this paper is available at https://github.com/Ghy0501/Awesome-Continual-Learning-in-Generative-Models.

arxiv情報

著者 Haiyang Guo,Fanhu Zeng,Fei Zhu,Jiayi Wang,Xukai Wang,Jingang Zhou,Hongbo Zhao,Wenzhuo Liu,Shijie Ma,Da-Han Wang,Xu-Yao Zhang,Cheng-Lin Liu
発行日 2025-06-18 15:06:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | A Comprehensive Survey on Continual Learning in Generative Models はコメントを受け付けていません

Exploring Personalized Federated Learning Architectures for Violence Detection in Surveillance Videos

要約

都市監視システムにおける暴力事件を検出するという課題は、ビデオデータの膨大で多様な性質によって悪化しています。
このホワイトペーパーでは、これらの問題に対処するためにパーソナライズされたフェデレーションラーニング(PFL)を使用したターゲットアプローチを紹介します。特に、フラワーフレームワーク内のパーソナライズレイヤー法でフェデレートラーニングを使用します。
私たちの方法論は、学習モデルを各監視ノードの一意のデータ特性に適応させ、監​​視ビデオデータの不均一および非IID性質を効果的に管理しています。
バランスのとれた不均衡なデータセットで実施された厳密な実験を通じて、当社のPFLモデルは精度と効率が向上し、最大99.3%の精度を達成しました。
この研究では、監視システムのスケーラビリティと有効性を大幅に改善するPFLの可能性を強調し、複雑な都市環境での暴力検出のための堅牢でプライバシーを提供するソリューションを提供します。

要約(オリジナル)

The challenge of detecting violent incidents in urban surveillance systems is compounded by the voluminous and diverse nature of video data. This paper presents a targeted approach using Personalized Federated Learning (PFL) to address these issues, specifically employing the Federated Learning with Personalization Layers method within the Flower framework. Our methodology adapts learning models to the unique data characteristics of each surveillance node, effectively managing the heterogeneous and non-IID nature of surveillance video data. Through rigorous experiments conducted on balanced and imbalanced datasets, our PFL models demonstrated enhanced accuracy and efficiency, achieving up to 99.3% accuracy. This study underscores the potential of PFL to significantly improve the scalability and effectiveness of surveillance systems, offering a robust, privacy-preserving solution for violence detection in complex urban environments.

arxiv情報

著者 Mohammad Kassir,Siba Haidar,Antoun Yaacoub
発行日 2025-06-18 15:15:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Exploring Personalized Federated Learning Architectures for Violence Detection in Surveillance Videos はコメントを受け付けていません

LaViDa: A Large Diffusion Language Model for Multimodal Understanding

要約

最新のビジョン言語モデル(VLM)は、視覚的な推論を必要とする幅広いタスクを解決できます。
実際のシナリオでは、VLMSの望ましいプロパティには、高速推論と制御可能な生成が含まれます(たとえば、出力を制約して目的の形式に接着します)。
ただし、Llavaのような既存の自己回帰(AR)VLMは、これらの側面で苦労しています。
離散拡散モデル(DMS)は、有望な代替手段を提供し、テキスト侵入を通じて制御可能な生成のためのより速い推論と双方向コンテキストのために並列デコードを可能にします。
言語のみの設定では効果的ですが、DMSのマルチモーダルタスクの可能性は露出度が低くなっています。
DMS上に構築されたVLMSファミリーであるLavidaを紹介します。
DMSにVisionエンコーダーを装備することでLavidaを構築し、マルチモーダル命令のために組み合わせた部品を共同で微調整します。
遭遇する課題に対処するために、ラビダには、効果的なトレーニングのための相補的マスキング、効率的な推論のためのプレフィックスKVキャッシュ、高品質のサンプリングのためのタイムステップシフトなどの新しい技術が組み込まれています。
実験では、LavidaがMMMUなどのマルチモーダルベンチマークでAR VLMに対して競争力のあるまたは優れたパフォーマンスを達成すると同時に、柔軟な速度品質のトレードオフ、制御性、双方向の推論など、DMの独自の利点を提供することが示されています。
Cocoキャプションでは、Lavidaは1.92倍のスピードアップで+4.1サイダー+4.1サイダーを上回ります。
双方向のタスクでは、制約された詩の完成に対して +59%の改善を達成します。
これらの結果は、AR VLMの強力な代替手段としてLavidaを示しています。
Code and models will be released in the camera-ready version.

要約(オリジナル)

Modern Vision-Language Models (VLMs) can solve a wide range of tasks requiring visual reasoning. In real-world scenarios, desirable properties for VLMs include fast inference and controllable generation (e.g., constraining outputs to adhere to a desired format). However, existing autoregressive (AR) VLMs like LLaVA struggle in these aspects. Discrete diffusion models (DMs) offer a promising alternative, enabling parallel decoding for faster inference and bidirectional context for controllable generation through text-infilling. While effective in language-only settings, DMs’ potential for multimodal tasks is underexplored. We introduce LaViDa, a family of VLMs built on DMs. We build LaViDa by equipping DMs with a vision encoder and jointly fine-tune the combined parts for multimodal instruction following. To address challenges encountered, LaViDa incorporates novel techniques such as complementary masking for effective training, prefix KV cache for efficient inference, and timestep shifting for high-quality sampling. Experiments show that LaViDa achieves competitive or superior performance to AR VLMs on multi-modal benchmarks such as MMMU, while offering unique advantages of DMs, including flexible speed-quality tradeoff, controllability, and bidirectional reasoning. On COCO captioning, LaViDa surpasses Open-LLaVa-Next-8B by +4.1 CIDEr with 1.92x speedup. On bidirectional tasks, it achieves +59% improvement on Constrained Poem Completion. These results demonstrate LaViDa as a strong alternative to AR VLMs. Code and models will be released in the camera-ready version.

arxiv情報

著者 Shufan Li,Konstantinos Kallidromitis,Hritik Bansal,Akash Gokul,Yusuke Kato,Kazuki Kozuka,Jason Kuen,Zhe Lin,Kai-Wei Chang,Aditya Grover
発行日 2025-06-18 15:17:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LaViDa: A Large Diffusion Language Model for Multimodal Understanding はコメントを受け付けていません

CLAIM: Clinically-Guided LGE Augmentation for Realistic and Diverse Myocardial Scar Synthesis and Segmentation

要約

後期ガドリニウム増強(LGE)心臓MRIからの深い学習ベースの心筋瘢痕セグメンテーションは、構造心疾患の正確でタイムリーな診断と治療計画の大きな可能性を示しています。
ただし、高品質の瘢痕ラベルを使用したLGE画像の可用性と変動は限られているため、堅牢なセグメンテーションモデルの開発が制限されます。
これに対処するために、クレームを紹介します。
その中心にあるのは、臨床的に採用されたAHA 17セグメントモデルに拡散ベースのジェネレーターを条件付けして、解剖学的に一貫した空間的に多様な瘢痕パターンを備えた画像を合成するために、Smile Module(臨床知識に導かれたScar Mask Generation)です。
さらに、クレームは、合成された傷跡のリアリズムと瘢痕セグメンテーションパフォーマンスの精度の両方を強化することを目指して、ジェネレーターと一緒に瘢痕セグメンテーションネットワークが最適化される共同トレーニング戦略を採用しています。
実験結果は、クレームが解剖学的に一貫性のある瘢痕パターンを生成し、ベースラインモデルと比較して実際の瘢痕分布とより高いダイスの類似性を達成することを示しています。
私たちのアプローチは、制御可能で現実的な心筋瘢痕合成を可能にし、下流の医療イメージングタスクの有用性を実証しています。

要約(オリジナル)

Deep learning-based myocardial scar segmentation from late gadolinium enhancement (LGE) cardiac MRI has shown great potential for accurate and timely diagnosis and treatment planning for structural cardiac diseases. However, the limited availability and variability of LGE images with high-quality scar labels restrict the development of robust segmentation models. To address this, we introduce CLAIM: \textbf{C}linically-Guided \textbf{L}GE \textbf{A}ugmentation for Real\textbf{i}stic and Diverse \textbf{M}yocardial Scar Synthesis and Segmentation framework, a framework for anatomically grounded scar generation and segmentation. At its core is the SMILE module (Scar Mask generation guided by cLinical knowledgE), which conditions a diffusion-based generator on the clinically adopted AHA 17-segment model to synthesize images with anatomically consistent and spatially diverse scar patterns. In addition, CLAIM employs a joint training strategy in which the scar segmentation network is optimized alongside the generator, aiming to enhance both the realism of synthesized scars and the accuracy of the scar segmentation performance. Experimental results show that CLAIM produces anatomically coherent scar patterns and achieves higher Dice similarity with real scar distributions compared to baseline models. Our approach enables controllable and realistic myocardial scar synthesis and has demonstrated utility for downstream medical imaging task.

arxiv情報

著者 Farheen Ramzan,Yusuf Kiberu,Nikesh Jathanna,Shahnaz Jamil-Copley,Richard H. Clayton,Chen,Chen
発行日 2025-06-18 15:21:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | CLAIM: Clinically-Guided LGE Augmentation for Realistic and Diverse Myocardial Scar Synthesis and Segmentation はコメントを受け付けていません

RaCalNet: Radar Calibration Network for Sparse-Supervised Metric Depth Estimation

要約

ミリ波レーダーを使用した高密度のメートリック深度推定には、通常、マルチフレームの投影と補間によって生成される密なLIDAR監督が必要であり、まばらなレーダー測定とRGB画像からの正確な深さの学習を導く必要があります。
ただし、このパラダイムは費用がかかり、データ集約的です。
これに対処するために、Racalnetを提案します。これは、スパースライダーを使用して洗練されたレーダー測定の学習を監督することにより、密集した監督の必要性を排除する新しいフレームワークであり、その結果、密集した方法と比較して監督密度が約1%しかありません。
レーダーポイントを幅広い画像領域に関連付け、密なラベルに大きく依存している以前のアプローチとは異なり、RacalNetはまず、まばらなレーダーポイントを再調整および改良して、正確な深さプライアーを構築します。
これらのプライアーは、単眼の深さ予測を導く信頼できるアンカーとして機能し、密集した監督に頼ることなくメトリックスケールの推定を可能にします。
この設計により、構造的な一貫性が向上し、詳細が保存されます。
まばらな監督のみに依存しているにもかかわらず、RacalNetは最先端の密集した方法を上回り、透明なオブジェクトの輪郭ときめ細かいテクスチャを備えた深度マップを作成します。
ZJU-4dradarcamデータセットと現実世界の展開シナリオに関する広範な実験は、その有効性を示し、RMSEをそれぞれ35.30%と34.89%削減します。

要約(オリジナル)

Dense metric depth estimation using millimeter-wave radar typically requires dense LiDAR supervision, generated via multi-frame projection and interpolation, to guide the learning of accurate depth from sparse radar measurements and RGB images. However, this paradigm is both costly and data-intensive. To address this, we propose RaCalNet, a novel framework that eliminates the need for dense supervision by using sparse LiDAR to supervise the learning of refined radar measurements, resulting in a supervision density of merely around 1% compared to dense-supervised methods. Unlike previous approaches that associate radar points with broad image regions and rely heavily on dense labels, RaCalNet first recalibrates and refines sparse radar points to construct accurate depth priors. These priors then serve as reliable anchors to guide monocular depth prediction, enabling metric-scale estimation without resorting to dense supervision. This design improves structural consistency and preserves fine details. Despite relying solely on sparse supervision, RaCalNet surpasses state-of-the-art dense-supervised methods, producing depth maps with clear object contours and fine-grained textures. Extensive experiments on the ZJU-4DRadarCam dataset and real-world deployment scenarios demonstrate its effectiveness, reducing RMSE by 35.30% and 34.89%, respectively.

arxiv情報

著者 Xingrui Qin,Wentao Zhao,Chuan Cao,Yihe Niu,Houcheng Jiang,Jingchuan Wang
発行日 2025-06-18 15:35:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | RaCalNet: Radar Calibration Network for Sparse-Supervised Metric Depth Estimation はコメントを受け付けていません

Automated MRI Tumor Segmentation using hybrid U-Net with Transformer and Efficient Attention

要約

癌は異常な成長であり、局所的に侵入し、遠い臓器に転移する可能性があります。
放射線療法治療計画の最適化には、腫瘍と周囲の正常組織の正確な自己セグメント化が必要です。
最近のAIベースのセグメンテーションモデルは、一般に、地元の患者集団の不均一性を欠いている大規模な公共データセットでトレーニングされています。
これらの研究はAIベースの医療画像のセグメンテーションを進めていますが、AI腫瘍セグメンテーションモデルを病院ソフトウェアに直接開発および統合して、効率的かつ正確な腫瘍学的治療計画と実行には、ローカルデータセットの研究が必要です。
この研究は、厳格なプライバシー保護の下で地元の病院から取得した磁気共鳴画像(MRI)データセットでの計算効率の高いハイブリッドUNETトランスフォーマーモデルを使用した腫瘍のセグメンテーションを強化します。
シームレスなDICOM抽出と前処理のための堅牢なデータパイプラインを開発し、その後、多様な臨床設定全体でモデルの一般化を確保するために広範な画像増強を行い、トレーニング用の6080枚の画像の合計データセットをもたらしました。
当社の新しいアーキテクチャは、UNETベースの畳み込みニューラルネットワークを、効率的な注意、スクイーズアンドエクスチャテーション(SE)ブロック、畳み込みブロック注意モジュール(CBAM)、および再接続ブロックを含む、変圧器ボトルネットと補完的な注意モジュールと統合しています。
収束を加速して計算需要を減らすために、最大バッチサイズ8を使用し、前提条件のイメージネット重量でエンコーダを初期化し、Kaggleのランタイム制限を克服するためにチェックポイントを介してデュアルNVIDIA T4 GPUのモデルをトレーニングしました。
ローカルMRIデータセットの定量的評価により、0.764のサイコロ類似性係数と0.736の交差点(IOU)が得られ、データが限られているにもかかわらず競争力のあるパフォーマンスを実証し、臨床展開のためのサイト固有のモデル開発の重要性を強調しました。

要約(オリジナル)

Cancer is an abnormal growth with potential to invade locally and metastasize to distant organs. Accurate auto-segmentation of the tumor and surrounding normal tissues is required for radiotherapy treatment plan optimization. Recent AI-based segmentation models are generally trained on large public datasets, which lack the heterogeneity of local patient populations. While these studies advance AI-based medical image segmentation, research on local datasets is necessary to develop and integrate AI tumor segmentation models directly into hospital software for efficient and accurate oncology treatment planning and execution. This study enhances tumor segmentation using computationally efficient hybrid UNet-Transformer models on magnetic resonance imaging (MRI) datasets acquired from a local hospital under strict privacy protection. We developed a robust data pipeline for seamless DICOM extraction and preprocessing, followed by extensive image augmentation to ensure model generalization across diverse clinical settings, resulting in a total dataset of 6080 images for training. Our novel architecture integrates UNet-based convolutional neural networks with a transformer bottleneck and complementary attention modules, including efficient attention, Squeeze-and-Excitation (SE) blocks, Convolutional Block Attention Module (CBAM), and ResNeXt blocks. To accelerate convergence and reduce computational demands, we used a maximum batch size of 8 and initialized the encoder with pretrained ImageNet weights, training the model on dual NVIDIA T4 GPUs via checkpointing to overcome Kaggle’s runtime limits. Quantitative evaluation on the local MRI dataset yielded a Dice similarity coefficient of 0.764 and an Intersection over Union (IoU) of 0.736, demonstrating competitive performance despite limited data and underscoring the importance of site-specific model development for clinical deployment.

arxiv情報

著者 Syed Haider Ali,Asrar Ahmad,Muhammad Ali,Asifullah Khan,Muhammad Shahban,Nadeem Shaukat
発行日 2025-06-18 15:36:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV, I.2.6 | Automated MRI Tumor Segmentation using hybrid U-Net with Transformer and Efficient Attention はコメントを受け付けていません

Control and Realism: Best of Both Worlds in Layout-to-Image without Training

要約

レイアウトからイメージの生成は、被験者の配置と配置を正確に制御する複雑なシーンを作成することを目的としています。
既存の作品は、事前に訓練されたテキストから画像間拡散モデルが特定のデータをトレーニングせずにこの目標を達成できることを実証しています。
しかし、彼らはしばしば不正確なローカリゼーションと非現実的なアーティファクトで課題に直面しています。
これらの欠点に焦点を当てて、斬新なトレーニングなしの方法であるWinwinlayを提案します。
その中心で、Winwinlayは、制御の精度とリアリズムを共同で強化する2つの重要な戦略、非ローカルな注意エネルギー機能と適応的な更新を提示します。
一方では、一般的に使用される注意エネルギー関数が固有の空間分布バイアスを導入し、オブジェクトがレイアウト命令と均一に整合するのを妨げることを理論的に実証します。
この問題を克服するために、非ローカルな注意事項を調査して注意スコアを再配布し、指定された空間条件によりよく準拠するようにオブジェクトを促進します。
一方、バニラバックプロパゲーション更新ルールが事前に訓練されたドメインからの逸脱を引き起こし、分散型のアーティファクトにつながる可能性があることを特定します。
それに応じて、レイアウトの制約を尊重しながらドメイン内の更新を促進する治療法として、Langevin Dynamicsベースの適応更新スキームを導入します。
広範な実験は、Winwinlayが要素の配置を制御し、フォトリアリックな視覚的忠実度を達成し、現在の最先端の方法を上回ることを実証しています。

要約(オリジナル)

Layout-to-Image generation aims to create complex scenes with precise control over the placement and arrangement of subjects. Existing works have demonstrated that pre-trained Text-to-Image diffusion models can achieve this goal without training on any specific data; however, they often face challenges with imprecise localization and unrealistic artifacts. Focusing on these drawbacks, we propose a novel training-free method, WinWinLay. At its core, WinWinLay presents two key strategies, Non-local Attention Energy Function and Adaptive Update, that collaboratively enhance control precision and realism. On one hand, we theoretically demonstrate that the commonly used attention energy function introduces inherent spatial distribution biases, hindering objects from being uniformly aligned with layout instructions. To overcome this issue, non-local attention prior is explored to redistribute attention scores, facilitating objects to better conform to the specified spatial conditions. On the other hand, we identify that the vanilla backpropagation update rule can cause deviations from the pre-trained domain, leading to out-of-distribution artifacts. We accordingly introduce a Langevin dynamics-based adaptive update scheme as a remedy that promotes in-domain updating while respecting layout constraints. Extensive experiments demonstrate that WinWinLay excels in controlling element placement and achieving photorealistic visual fidelity, outperforming the current state-of-the-art methods.

arxiv情報

著者 Bonan Li,Yinhan Hu,Songhua Liu,Xinchao Wang
発行日 2025-06-18 15:39:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Control and Realism: Best of Both Worlds in Layout-to-Image without Training はコメントを受け付けていません