Landmark-Free Preoperative-to-Intraoperative Registration in Laparoscopic Liver Resection

要約

術前の3Dモデルを術中2Dフレームにオーバーレイすることによる肝臓登録は、外科医の空間解剖学を明らかに外科的成功率のために認識するのを助けることができます。
既存の登録方法は、解剖学的ランドマークベースのワークフローに大きく依存しており、2つの主要な制限が発生します。1)あいまいなランドマーク定義は、登録に効率的なマーカーを提供できません。
2)形状変形モデリングにおける術中肝臓の視覚情報の統合が不十分です。
これらの課題に対処するために、このホワイトペーパーでは、効果的な自己監視学習と呼ばれる\ ourmodelと呼ばれるランドマークのない術前から侵入登録フレームワークを提案します。
このフレームワークは、従来の3D-2Dワークフローを3D-3D登録パイプラインに変換し、その後、剛性と非剛性の登録サブタスクに分離されます。
\ ourmodel〜最初に、剛性変換を回復するための堅牢な対応を学習するために、機能定量の変圧器を導入します。
さらに、術前の肝臓表面と整列するように術前モデルを調整するように構造正規化された変形ネットワークが設計されています。
このネットワークは、低ランク変圧器ネットワークのジオメトリ類似性モデリングを通じて構造相関をキャプチャします。
登録パフォーマンスの検証を容易にするために、21人の患者の肝臓切除ビデオを含む生体内登録データセットを構築します。
合成データセットと生体内データセットの両方に関する広範な実験とユーザー研究は、私たちの方法の優位性と潜在的な臨床的適用性を示しています。

要約(オリジナル)

Liver registration by overlaying preoperative 3D models onto intraoperative 2D frames can assist surgeons in perceiving the spatial anatomy of the liver clearly for a higher surgical success rate. Existing registration methods rely heavily on anatomical landmark-based workflows, which encounter two major limitations: 1) ambiguous landmark definitions fail to provide efficient markers for registration; 2) insufficient integration of intraoperative liver visual information in shape deformation modeling. To address these challenges, in this paper, we propose a landmark-free preoperative-to-intraoperative registration framework utilizing effective self-supervised learning, termed \ourmodel. This framework transforms the conventional 3D-2D workflow into a 3D-3D registration pipeline, which is then decoupled into rigid and non-rigid registration subtasks. \ourmodel~first introduces a feature-disentangled transformer to learn robust correspondences for recovering rigid transformations. Further, a structure-regularized deformation network is designed to adjust the preoperative model to align with the intraoperative liver surface. This network captures structural correlations through geometry similarity modeling in a low-rank transformer network. To facilitate the validation of the registration performance, we also construct an in-vivo registration dataset containing liver resection videos of 21 patients, called \emph{P2I-LReg}, which contains 346 keyframes that provide a global view of the liver together with liver mask annotations and calibrated camera intrinsic parameters. Extensive experiments and user studies on both synthetic and in-vivo datasets demonstrate the superiority and potential clinical applicability of our method.

arxiv情報

著者 Jun Zhou,Bingchen Gao,Kai Wang,Jialun Pei,Pheng-Ann Heng,Jing Qin
発行日 2025-04-21 14:55:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Landmark-Free Preoperative-to-Intraoperative Registration in Laparoscopic Liver Resection はコメントを受け付けていません

Dynamic 3D KAN Convolution with Adaptive Grid Optimization for Hyperspectral Image Classification

要約

深いニューラルネットワークは、高次元データ、地上オブジェクトのまばらな分布、スペクトル冗長性など、ハイパースペクトル画像分類におけるいくつかの課題に直面しています。
このホワイトペーパーでは、3D KAN CONVと適応グリッド更新メカニズムで構成される改善された3Dデンセネットモデルに基づいて、過度のパラメーターを導入して冗長な情報をスキップせずに画像機能を抽出しながら、地面のオブジェクト分布により効率的に適応するために、より効率的に適応するために。
ネットワークエッジに学習可能な単変量Bスプライン関数を導入することにより、特に3次元近傍をベクトルに平らにし、B-SPLINEパラメーター化された非線形活性化関数を適用して、従来の3D畳み込みカーネルの固定線形重みを置き換えることにより、Hypersepertal Datasの複雑なスペクトルの非線形関係を正確に捕捉します。
同時に、動的グリッド調整メカニズムを通じて、入力データの統計的特性に基づいてB-Splinesのグリッドポイント位置を適応的に更新し、スプライン関数の分解能を最適化して、スペクトル特徴の非均一な分布と一致し、高次元データモデリングとパラメーターの効率を効果的に改善します。
この特徴は、従来の畳み込みニューラルネットワークと比較して優れた神経スケーリング法則を示し、小型サンプルおよび高ノイズシナリオの過剰適合リスクを軽減します。
Kanetは、ネットワークの深さや幅を増やすことなく、3Dダイナミックエキスパートの畳み込みシステムを通じてモデル表現機能を強化します。
提案された方法は、IN、UP、およびKSCデータセットの優れたパフォーマンスを示し、主流のハイパースペクトル画像分類アプローチを上回ります。

要約(オリジナル)

Deep neural networks face several challenges in hyperspectral image classification, including high-dimensional data, sparse distribution of ground objects, and spectral redundancy, which often lead to classification overfitting and limited generalization capability. To more efficiently adapt to ground object distributions while extracting image features without introducing excessive parameters and skipping redundant information, this paper proposes KANet based on an improved 3D-DenseNet model, consisting of 3D KAN Conv and an adaptive grid update mechanism. By introducing learnable univariate B-spline functions on network edges, specifically by flattening three-dimensional neighborhoods into vectors and applying B-spline-parameterized nonlinear activation functions to replace the fixed linear weights of traditional 3D convolutional kernels, we precisely capture complex spectral-spatial nonlinear relationships in hyperspectral data. Simultaneously, through a dynamic grid adjustment mechanism, we adaptively update the grid point positions of B-splines based on the statistical characteristics of input data, optimizing the resolution of spline functions to match the non-uniform distribution of spectral features, significantly improving the model’s accuracy in high-dimensional data modeling and parameter efficiency, effectively alleviating the curse of dimensionality. This characteristic demonstrates superior neural scaling laws compared to traditional convolutional neural networks and reduces overfitting risks in small-sample and high-noise scenarios. KANet enhances model representation capability through a 3D dynamic expert convolution system without increasing network depth or width. The proposed method demonstrates superior performance on IN, UP, and KSC datasets, outperforming mainstream hyperspectral image classification approaches.

arxiv情報

著者 Guandong Li,Mengxia Ye
発行日 2025-04-21 14:57:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Dynamic 3D KAN Convolution with Adaptive Grid Optimization for Hyperspectral Image Classification はコメントを受け付けていません

Acquire and then Adapt: Squeezing out Text-to-Image Model for Image Restoration

要約

最近、事前に訓練されたテキストからイメージ(T2I)モデルが、その強力な生成事前のために、実際の画像修復に広く採用されています。
ただし、画像修復のためにこれらの大規模なモデルを制御するには、通常、トレーニングのための多数の高品質の画像と計り知れない計算リソースが必要です。
この論文では、よく訓練された大型T2Iモデル(つまり、フラックス)が、実際の分布に沿ったさまざまな高品質の画像を作成できることがわかり、上記の問題を軽減するためのトレーニングサンプルの無制限の供給を提供します。
具体的には、画像修復のためのトレーニングデータ構築パイプライン、すなわち、無条件の画像生成、画像選択、劣化した画像シミュレーションを含むFluxGenを提案しました。
スクイーズアンドエクスケーション層を備えた新しい光加重アダプター(Fluxir)は、大きな拡散トランス(DIT)ベースのT2Iモデルを制御するために慎重に設計されているため、合理的な詳細を復元できます。
実験は、提案された方法により、フラックスモデルが現実世界の画像修復タスクに効果的に適応することを可能にし、現在のアプローチと比較してトレーニングコストの約8.5%で、合成および実世界の劣化データセットの両方で優れたスコアと視覚品質を達成することができることを示しています。

要約(オリジナル)

Recently, pre-trained text-to-image (T2I) models have been extensively adopted for real-world image restoration because of their powerful generative prior. However, controlling these large models for image restoration usually requires a large number of high-quality images and immense computational resources for training, which is costly and not privacy-friendly. In this paper, we find that the well-trained large T2I model (i.e., Flux) is able to produce a variety of high-quality images aligned with real-world distributions, offering an unlimited supply of training samples to mitigate the above issue. Specifically, we proposed a training data construction pipeline for image restoration, namely FluxGen, which includes unconditional image generation, image selection, and degraded image simulation. A novel light-weighted adapter (FluxIR) with squeeze-and-excitation layers is also carefully designed to control the large Diffusion Transformer (DiT)-based T2I model so that reasonable details can be restored. Experiments demonstrate that our proposed method enables the Flux model to adapt effectively to real-world image restoration tasks, achieving superior scores and visual quality on both synthetic and real-world degradation datasets – at only about 8.5\% of the training cost compared to current approaches.

arxiv情報

著者 Junyuan Deng,Xinyi Wu,Yongxing Yang,Congchao Zhu,Song Wang,Zhenyao Wu
発行日 2025-04-21 15:05:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Acquire and then Adapt: Squeezing out Text-to-Image Model for Image Restoration はコメントを受け付けていません

An Efficient Aerial Image Detection with Variable Receptive Fields

要約

無人航空機(UAV)を使用した空中オブジェクトの検出は、10pxのターゲット、密なオクルージョン、厳しい計算上の制約を含む重要な課題に直面しています。
既存の検出器は、剛性の受容フィールドと冗長アーキテクチャによる精度と効率のバランスをとるのに苦労しています。
これらの制限に対処するために、3つの重要なコンポーネントを組み込んだ変圧器ベースの検出器である可変受容フィールドDETR(VRF-DERT)を提案します:1)マルチスケールコンテキスト融合(MSCF)モジュールは、適応的な空間的注意とゲートマルチスケール融合を介して機能を動的に再調整する、2)のムーブリックエクセレーションモデルを介したconvoluted eving eding concontexe
ダイナミックゲーティング、および3)カスケードされたグローバルローカル相互作用を介してオブジェクトを階層的に解き放つオブジェクトを階層的に解き放つゲートマルチスケール融合(GMCF)ボトルネック。
Visdrone2019での実験は、VRF-DETRが51.4 \%MAP \ TextSubscript {50}および31.8 \%Map \ TextSubscript {50:95}を13.5mパラメーターで達成することを示しています。
この作業は、UAVベースの検出タスクのための新しい効率的アクセラシーパレートフロンティアを確立します。

要約(オリジナル)

Aerial object detection using unmanned aerial vehicles (UAVs) faces critical challenges including sub-10px targets, dense occlusions, and stringent computational constraints. Existing detectors struggle to balance accuracy and efficiency due to rigid receptive fields and redundant architectures. To address these limitations, we propose Variable Receptive Field DETR (VRF-DETR), a transformer-based detector incorporating three key components: 1) Multi-Scale Context Fusion (MSCF) module that dynamically recalibrates features through adaptive spatial attention and gated multi-scale fusion, 2) Gated Convolution (GConv) layer enabling parameter-efficient local-context modeling via depthwise separable operations and dynamic gating, and 3) Gated Multi-scale Fusion (GMCF) Bottleneck that hierarchically disentangles occluded objects through cascaded global-local interactions. Experiments on VisDrone2019 demonstrate VRF-DETR achieves 51.4\% mAP\textsubscript{50} and 31.8\% mAP\textsubscript{50:95} with only 13.5M parameters. This work establishes a new efficiency-accuracy Pareto frontier for UAV-based detection tasks.

arxiv情報

著者 Liu Wenbin
発行日 2025-04-21 15:16:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | An Efficient Aerial Image Detection with Variable Receptive Fields はコメントを受け付けていません

HSANET: A Hybrid Self-Cross Attention Network For Remote Sensing Change Detection

要約

リモートセンシング画像変更検出タスクは、大規模な監視に不可欠な方法です。
階層的畳み込みを使用してマルチスケール機能を抽出するネットワークであるHSANETを提案します。
これには、グローバルおよびクロススケールの情報を学習し、融合するためのハイブリッドの自己触媒と分析メカニズムが組み込まれています。
これにより、HSANETはさまざまなスケールでグローバルコンテキストをキャプチャし、クロススケール機能を統合し、エッジの詳細を改良し、検出パフォーマンスを向上させることができます。
また、モデルコードhttps://github.com/chengxihan/hsanetをオープンソースします。

要約(オリジナル)

The remote sensing image change detection task is an essential method for large-scale monitoring. We propose HSANet, a network that uses hierarchical convolution to extract multi-scale features. It incorporates hybrid self-attention and cross-attention mechanisms to learn and fuse global and cross-scale information. This enables HSANet to capture global context at different scales and integrate cross-scale features, refining edge details and improving detection performance. We will also open-source our model code: https://github.com/ChengxiHAN/HSANet.

arxiv情報

著者 Chengxi Han,Xiaoyu Su,Zhiqiang Wei,Meiqi Hu,Yichu Xu
発行日 2025-04-21 15:23:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HSANET: A Hybrid Self-Cross Attention Network For Remote Sensing Change Detection はコメントを受け付けていません

DSPO: Direct Semantic Preference Optimization for Real-World Image Super-Resolution

要約

拡散モデルの最近の進歩により、実際の画像の超​​解像度(Real-ISR)が改善されましたが、既存の方法には人間のフィードバック統合がなく、人間の好みとの不整合の危険性があり、アーティファクト、幻覚、有害なコンテンツ生成につながる可能性があります。
この目的のために、私たちは、人間の好みのアラインメントをReal-ISRに導入する最初の人です。これは、生成された出力と人間の好みのアラインメントを効果的に強化するために、大規模な言語モデルとテキストから画像のタスクで成功裏に適用された手法です。
具体的には、直接選好最適化(DPO)をReal-ISRに導入してアライメントを実現します。DPOは、人間の好みデータセットから直接学習する一般的なアライメント手法として機能します。
それにもかかわらず、高レベルのタスクとは異なり、Real-ISRのピクセルレベルの再構築目標は、DPOの画像レベルの好みと調整することが困難であり、DPOが局所的な異常に過度に敏感であり、発電の品質の低下につながる可能性があります。
この二分法を解決するために、セマンティックガイダンスを組み込むことによりインスタンスレベルの人間の好みを調整するための直接的なセマンティック優先最適化(DSPO)を提案します。これは、2つの戦略を通じてです。
インスタンスレベルの画像。
プラグアンドプレイソリューションとして、DSPOはワンステップとマルチステップの両方のSRフレームワークに非常に効果的であることが証明されています。

要約(オリジナル)

Recent advances in diffusion models have improved Real-World Image Super-Resolution (Real-ISR), but existing methods lack human feedback integration, risking misalignment with human preference and may leading to artifacts, hallucinations and harmful content generation. To this end, we are the first to introduce human preference alignment into Real-ISR, a technique that has been successfully applied in Large Language Models and Text-to-Image tasks to effectively enhance the alignment of generated outputs with human preferences. Specifically, we introduce Direct Preference Optimization (DPO) into Real-ISR to achieve alignment, where DPO serves as a general alignment technique that directly learns from the human preference dataset. Nevertheless, unlike high-level tasks, the pixel-level reconstruction objectives of Real-ISR are difficult to reconcile with the image-level preferences of DPO, which can lead to the DPO being overly sensitive to local anomalies, leading to reduced generation quality. To resolve this dichotomy, we propose Direct Semantic Preference Optimization (DSPO) to align instance-level human preferences by incorporating semantic guidance, which is through two strategies: (a) semantic instance alignment strategy, implementing instance-level alignment to ensure fine-grained perceptual consistency, and (b) user description feedback strategy, mitigating hallucinations through semantic textual feedback on instance-level images. As a plug-and-play solution, DSPO proves highly effective in both one-step and multi-step SR frameworks.

arxiv情報

著者 Miaomiao Cai,Simiao Li,Wei Li,Xudong Huang,Hanting Chen,Jie Hu,Yunhe Wang
発行日 2025-04-21 15:35:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DSPO: Direct Semantic Preference Optimization for Real-World Image Super-Resolution はコメントを受け付けていません

Tree of Attributes Prompt Learning for Vision-Language Models

要約

迅速な学習は、ダウンストリームタスクにビジョン言語モデルを適応させるのに効果的であることが証明されています。
ただし、既存のメソッドは通常、カテゴリ名を取得するためにカテゴリ名のみで学習可能なプロンプトトークンを追加します。これは、カテゴリ名に示されている豊富なコンテキストを完全に活用できません。
この問題に対処するために、属性のTree Prompt Learning(TAP)を提案します。これは、最初に各カテゴリの「概念 – 属性 – 説明」構造を持つ属性のツリーを生成するようにLLMSに指示し、ビジョンとテキストのプロンプトトークンで階層を学習します。
一連の非構造化された説明を使用してカテゴリ名を補強する既存の方法とは異なり、私たちのアプローチは、LLMSのクラス名に関連する構造化された知識グラフを本質的に蒸留します。
さらに、私たちのアプローチでは、対応する視覚属性を明示的に学習するように設計されたテキストとビジョンのプロンプトを導入し、ドメインの専門家として効果的に機能します。
さらに、クラス名に基づいて生成された一般的および多様な説明は、特定の画像に間違っているか、存在しない可能性があります。
この不整合に対処するために、インスタンス固有のテキスト機能を抽出するためのビジョン条件付きプーリングモジュールをさらに紹介します。
広範な実験結果は、私たちのアプローチが、ゼロショットベースからノベルへの一般化、クロスダタセット転送、および11の多様なデータセットにわたる少数の分類に関する最先端の方法よりも優れていることを示しています。
コードはhttps://github.com/hhenryd/tapで入手できます。

要約(オリジナル)

Prompt learning has proven effective in adapting vision language models for downstream tasks. However, existing methods usually append learnable prompt tokens solely with the category names to obtain textual features, which fails to fully leverage the rich context indicated in the category name. To address this issue, we propose the Tree of Attributes Prompt learning (TAP), which first instructs LLMs to generate a tree of attributes with a ‘concept – attribute – description’ structure for each category, and then learn the hierarchy with vision and text prompt tokens. Unlike existing methods that merely augment category names with a set of unstructured descriptions, our approach essentially distills structured knowledge graphs associated with class names from LLMs. Furthermore, our approach introduces text and vision prompts designed to explicitly learn the corresponding visual attributes, effectively serving as domain experts. Additionally, the general and diverse descriptions generated based on the class names may be wrong or absent in the specific given images. To address this misalignment, we further introduce a vision-conditional pooling module to extract instance-specific text features. Extensive experimental results demonstrate that our approach outperforms state-of-the-art methods on the zero-shot base-to-novel generalization, cross-dataset transfer, as well as few-shot classification across 11 diverse datasets. Code is available at https://github.com/HHenryD/TAP.

arxiv情報

著者 Tong Ding,Wanhua Li,Zhongqi Miao,Hanspeter Pfister
発行日 2025-04-21 15:37:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Tree of Attributes Prompt Learning for Vision-Language Models はコメントを受け付けていません

FaceCraft4D: Animated 3D Facial Avatar Generation from a Single Image

要約

単一の画像から高品質でアニメーション可能な4Dアバターを生成するための新しいフレームワークを提示します。
最近の進歩により、4Dアバターの作成において有望な結果が示されていますが、既存の方法では広範なマルチビューデータが必要か、形状の精度とアイデンティティの一貫性を伴う闘いが必要です。
これらの制限に対処するために、形状、画像、ビデオの事前を活用する包括的なシステムを提案して、フルビューのアニメーション可能なアバターを作成します。
私たちのアプローチは、最初に3D-Ganの反転を通じて初期の粗い形状を取得します。
次に、画像拡散モデルの助けを借りてクロスビューの一貫性を得るために、深さ誘導ワーピング信号を使用してマルチビューテクスチャを強化します。
式アニメーションを処理するために、視点を越えて同期された運転信号を含むビデオを前に組み込みます。
さらに、4D再構成中にデータの矛盾を効果的に処理するための一貫した一貫性のあるトレーニングを導入します。
実験結果は、さまざまな視点や表現にわたって一貫性を維持しながら、以前のアートと比較して優れた品質を達成することを示しています。

要約(オリジナル)

We present a novel framework for generating high-quality, animatable 4D avatar from a single image. While recent advances have shown promising results in 4D avatar creation, existing methods either require extensive multiview data or struggle with shape accuracy and identity consistency. To address these limitations, we propose a comprehensive system that leverages shape, image, and video priors to create full-view, animatable avatars. Our approach first obtains initial coarse shape through 3D-GAN inversion. Then, it enhances multiview textures using depth-guided warping signals for cross-view consistency with the help of the image diffusion model. To handle expression animation, we incorporate a video prior with synchronized driving signals across viewpoints. We further introduce a Consistent-Inconsistent training to effectively handle data inconsistencies during 4D reconstruction. Experimental results demonstrate that our method achieves superior quality compared to the prior art, while maintaining consistency across different viewpoints and expressions.

arxiv情報

著者 Fei Yin,Mallikarjun B R,Chun-Han Yao,Rafał Mantiuk,Varun Jampani
発行日 2025-04-21 15:40:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FaceCraft4D: Animated 3D Facial Avatar Generation from a Single Image はコメントを受け付けていません

Tiger200K: Manually Curated High Visual Quality Video Dataset from UGC Platform

要約

最近のオープンソーステキストからビデオへの生成モデルの急増は、研究コミュニティを大幅に活性化しましたが、独自のトレーニングデータセットへの依存は依然として重要な制約のままです。
Koala-36Mのような既存のオープンデータセットは、初期のプラットフォームからのWebスクラップビデオのアルゴリズムフィルタリングを採用していますが、高度な高度なビデオ生成モデルに必要な品質がまだ不足しています。
ユーザー生成コンテンツ(UGC)プラットフォームから調達された手動でキュレーションされた高視覚品質のビデオデータセットであるTiger200Kを提示します。
Tiger200Kは、視覚的な忠実度と審美的品質に優先順位を付けることで、データキュレーションにおける人間の専門知識の重要な役割を強調し、ショット境界検出、OCR、モーションフィルター、および細かいバイリンガルキャプションを含むシンプルだが効果的なパイプラインを介して、微調整と最適化のビデオ生成アーキテクチャを微調整し、最適化するための高品質で時間的に一貫したビデオテキストペアを提供します。
データセットは継続的な拡張を受け、ビデオ生成モデルの研究とアプリケーションを促進するためのオープンソースイニシアチブとしてリリースされます。
プロジェクトページ:https://tinytigerpan.github.io/tiger200k/

要約(オリジナル)

The recent surge in open-source text-to-video generation models has significantly energized the research community, yet their dependence on proprietary training datasets remains a key constraint. While existing open datasets like Koala-36M employ algorithmic filtering of web-scraped videos from early platforms, they still lack the quality required for fine-tuning advanced video generation models. We present Tiger200K, a manually curated high visual quality video dataset sourced from User-Generated Content (UGC) platforms. By prioritizing visual fidelity and aesthetic quality, Tiger200K underscores the critical role of human expertise in data curation, and providing high-quality, temporally consistent video-text pairs for fine-tuning and optimizing video generation architectures through a simple but effective pipeline including shot boundary detection, OCR, border detecting, motion filter and fine bilingual caption. The dataset will undergo ongoing expansion and be released as an open-source initiative to advance research and applications in video generative models. Project page: https://tinytigerpan.github.io/tiger200k/

arxiv情報

著者 Xianpan Zhou
発行日 2025-04-21 15:44:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Tiger200K: Manually Curated High Visual Quality Video Dataset from UGC Platform はコメントを受け付けていません

Breast density in MRI: an AI-based quantification and relationship to assessment in mammography

要約

マンモグラフィ乳房密度は、乳がんの確立された危険因子です。
最近、このモダリティは乳房組織の直交と高度な定量的評価を提供するため、マンモグラフィの補助として乳房MRIに関心がありました。
ただし、その3Dの自然は、スライス全体の複雑な構造の描写と集約に関連する分析的課題を提起します。
ここでは、3つのMRIデータセットの通常の乳房の乳房密度を評価するために、社内の機械学習アルゴリズムを適用しました。
乳房密度は、異なるデータセット全体で一貫していました(0.104-0.114)。
さまざまな年齢層にわたる分析も、データセット全体で強い一貫性を示し、以前の研究で報告されているように年齢とともに密度が低下する傾向を確認しました。
乳房密度はマンモグラフィ乳房密度と相関していたが、特定の乳房密度成分がMRIでのみキャプチャされることを示唆しているいくつかの顕著な違いがある。
将来の作業により、MR乳房密度を現在のツールと統合する方法を決定して、将来の乳がんリスク予測を改善します。

要約(オリジナル)

Mammographic breast density is a well-established risk factor for breast cancer. Recently there has been interest in breast MRI as an adjunct to mammography, as this modality provides an orthogonal and highly quantitative assessment of breast tissue. However, its 3D nature poses analytic challenges related to delineating and aggregating complex structures across slices. Here, we applied an in-house machine-learning algorithm to assess breast density on normal breasts in three MRI datasets. Breast density was consistent across different datasets (0.104 – 0.114). Analysis across different age groups also demonstrated strong consistency across datasets and confirmed a trend of decreasing density with age as reported in previous studies. MR breast density was correlated with mammographic breast density, although some notable differences suggest that certain breast density components are captured only on MRI. Future work will determine how to integrate MR breast density with current tools to improve future breast cancer risk prediction.

arxiv情報

著者 Yaqian Chen,Lin Li,Hanxue Gu,Haoyu Dong,Derek L. Nguyen,Allan D. Kirk,Maciej A. Mazurowski,E. Shelley Hwang
発行日 2025-04-21 16:01:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Breast density in MRI: an AI-based quantification and relationship to assessment in mammography はコメントを受け付けていません