Audio-visual Event Localization on Portrait Mode Short Videos

要約

視聴覚イベントのローカリゼーション(AVEL)は、マルチモーダルシーンの理解において重要な役割を果たします。
Avelの既存のデータセットは、クリーンでシンプルなオーディオコンテキストを備えたランドスケープ指向の長いビデオで構成されていますが、短いビデオは、スマートフォンの拡散により、オンラインビデオコンテンツの主要な形式になりました。
短いビデオの特徴は、ポートレート指向のフレーミングと階層化されたオーディオ構成(たとえば、オーバーラップサウンドエフェクト、ナレーション、音楽など)で、従来の方法では対処されていないユニークな課題をもたらします。
この目的のために、フレームレベルの注釈を備えた86の微調整されたカテゴリにまたがる25,335のクリップで構成される、ポートレートモードの短いビデオ用に特別に設計された最初のAVELデータセットであるAVE-PMを紹介します。
データセットの作成を超えて、当社の経験的分析は、最先端のAVELメソッドがクロスモード評価中に平均18.66%のパフォーマンス低下を被ることを示しています。
さらなる分析により、さまざまなビデオ形式の2つの重要な課題が明らかになります。1)ポートレート指向のフレーミングからの空間的バイアスは、個別のドメインプリエアを導入し、2)ノイズの多いオーディオ構成は、オーディオモダリティの信頼性を損なうことを明らかにします。
これらの問題に対処するために、最適な前処理レシピと、Avelのバックグラウンドミュージックがポートレートモードのビデオに与える影響を調査します。
実験は、これらの方法が調整された前処理と特殊なモデル設計から依然として恩恵を受けることができることを示しており、パフォーマンスが向上することです。
この作業は、モバイル中心のビデオコンテンツの時代におけるAvel研究を進めるための基礎的なベンチマークと実用的な洞察の両方を提供します。
データセットとコードがリリースされます。

要約(オリジナル)

Audio-visual event localization (AVEL) plays a critical role in multimodal scene understanding. While existing datasets for AVEL predominantly comprise landscape-oriented long videos with clean and simple audio context, short videos have become the primary format of online video content due to the the proliferation of smartphones. Short videos are characterized by portrait-oriented framing and layered audio compositions (e.g., overlapping sound effects, voiceovers, and music), which brings unique challenges unaddressed by conventional methods. To this end, we introduce AVE-PM, the first AVEL dataset specifically designed for portrait mode short videos, comprising 25,335 clips that span 86 fine-grained categories with frame-level annotations. Beyond dataset creation, our empirical analysis shows that state-of-the-art AVEL methods suffer an average 18.66% performance drop during cross-mode evaluation. Further analysis reveals two key challenges of different video formats: 1) spatial bias from portrait-oriented framing introduces distinct domain priors, and 2) noisy audio composition compromise the reliability of audio modality. To address these issues, we investigate optimal preprocessing recipes and the impact of background music for AVEL on portrait mode videos. Experiments show that these methods can still benefit from tailored preprocessing and specialized model design, thus achieving improved performance. This work provides both a foundational benchmark and actionable insights for advancing AVEL research in the era of mobile-centric video content. Dataset and code will be released.

arxiv情報

著者 Wuyang Liu,Yi Chai,Yongpeng Yan,Yanzhen Ren
発行日 2025-04-09 13:38:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM | Audio-visual Event Localization on Portrait Mode Short Videos はコメントを受け付けていません

ColorizeDiffusion v2: Enhancing Reference-based Sketch Colorization Through Separating Utilities

要約

リファレンスベースのスケッチカラー化方法は、アニメーション制作業界での潜在的なアプリケーションのために、大きな注目を集めています。
ただし、ほとんどの既存の方法は、意味的および空間的に適切に整合されたスケッチ、参照、およびグラウンドトゥルースの画像トリプレットで訓練されていますが、実際の参照とスケッチは多くの場合、かなりの不整合を示します。
トレーニングと推論の間のデータ分布のこの不一致は、過剰適合につながり、その結果、空間的アーティファクトと全体的な色素化品質の大幅な分解が生じ、一般的な目的のための現在の方法の潜在的なアプリケーションが制限されます。
この制限に対処するために、参照からスケッチへの情報転送を促進する潜在的な表現として定義された\ textBf {Carrier}の詳細な分析を実施します。
この分析に基づいて、キャリアを動的に適応させる新しいワークフローを提案し、色付けの明確な側面を最適化します。
具体的には、空間的に配置されたアーティファクトの場合、空間マスクを使用した分割交差計測メカニズムを導入し、拡散プロセス内で領域固有の参照注入を可能にします。
スケッチのセマンティックネグレクトを緩和するために、専用の背景とスタイルのエンコーダーを使用して、潜在的な特徴空間で詳細な参照情報を転送し、空間制御とより豊富なディテール合成を実現します。
さらに、前景の統合とバックグラウンド生成を改善するための前処理ステップとして、キャラクターマスクの合併とバックグラウンド漂白を提案します。
ユーザー調査を含む広範な定性的および定量的評価は、既存のアプローチと比較して、提案された方法の優れたパフォーマンスを示しています。
アブレーション研究は、提案された各コンポーネントの有効性をさらに検証します。

要約(オリジナル)

Reference-based sketch colorization methods have garnered significant attention due to their potential applications in the animation production industry. However, most existing methods are trained with image triplets of sketch, reference, and ground truth that are semantically and spatially well-aligned, while real-world references and sketches often exhibit substantial misalignment. This mismatch in data distribution between training and inference leads to overfitting, consequently resulting in spatial artifacts and significant degradation in overall colorization quality, limiting potential applications of current methods for general purposes. To address this limitation, we conduct an in-depth analysis of the \textbf{carrier}, defined as the latent representation facilitating information transfer from reference to sketch. Based on this analysis, we propose a novel workflow that dynamically adapts the carrier to optimize distinct aspects of colorization. Specifically, for spatially misaligned artifacts, we introduce a split cross-attention mechanism with spatial masks, enabling region-specific reference injection within the diffusion process. To mitigate semantic neglect of sketches, we employ dedicated background and style encoders to transfer detailed reference information in the latent feature space, achieving enhanced spatial control and richer detail synthesis. Furthermore, we propose character-mask merging and background bleaching as preprocessing steps to improve foreground-background integration and background generation. Extensive qualitative and quantitative evaluations, including a user study, demonstrate the superior performance of our proposed method compared to existing approaches. An ablation study further validates the efficacy of each proposed component.

arxiv情報

著者 Dingkun Yan,Xinrui Wang,Yusuke Iwasawa,Yutaka Matsuo,Suguru Saito,Jiaxian Guo
発行日 2025-04-09 13:55:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ColorizeDiffusion v2: Enhancing Reference-based Sketch Colorization Through Separating Utilities はコメントを受け付けていません

MedSegFactory: Text-Guided Generation of Medical Image-Mask Pairs

要約

このペーパーでは、MedsegFactoryを紹介します。MedsegFactoryは、高品質のペアの医療画像とセグメンテーションマスクをモダリティとタスクにわたって生成する多目的な医療合成フレームワークです。
無制限のデータリポジトリとして機能し、既存のセグメンテーションツールを強化するために画像マスクペアを提供することを目指しています。
MedsegFactoryのコアはデュアルストリーム拡散モデルであり、1つのストリームは医療画像を合成し、もう1つは対応するセグメンテーションマスクを生成します。
画像マスクペア間の正確な整合を確保するために、ジョイントクロスアテナント(JCA)を導入し、ストリーム間の動的な相互条件により、共同除去パラダイムを可能にします。
この双方向の相互作用により、両方の表現が互いの生成を導くことができ、生成されたペア間の一貫性が向上します。
MedSegFactoryは、ターゲットラベル、イメージングモダリティ、解剖学的領域、および病理学的条件を指定するユーザー定義のプロンプトを介して、ペアの医療画像とセグメンテーションマスクのオンデマンド生成のロックを解除し、スケーラブルで高品質のデータ生成を促進します。
医療画像統合のこの新しいパラダイムにより、多様な医療画像ワークフローへのシームレスな統合により、効率と精度の両方が向上します。
広範な実験では、MedsegFactoryが優れた品質と使いやすさのデータを生成し、データ不足と規制の制約に対処しながら、2Dおよび3Dセグメンテーションタスクで競争力のあるまたは最先端のパフォーマンスを達成することが示されています。

要約(オリジナル)

This paper presents MedSegFactory, a versatile medical synthesis framework that generates high-quality paired medical images and segmentation masks across modalities and tasks. It aims to serve as an unlimited data repository, supplying image-mask pairs to enhance existing segmentation tools. The core of MedSegFactory is a dual-stream diffusion model, where one stream synthesizes medical images and the other generates corresponding segmentation masks. To ensure precise alignment between image-mask pairs, we introduce Joint Cross-Attention (JCA), enabling a collaborative denoising paradigm by dynamic cross-conditioning between streams. This bidirectional interaction allows both representations to guide each other’s generation, enhancing consistency between generated pairs. MedSegFactory unlocks on-demand generation of paired medical images and segmentation masks through user-defined prompts that specify the target labels, imaging modalities, anatomical regions, and pathological conditions, facilitating scalable and high-quality data generation. This new paradigm of medical image synthesis enables seamless integration into diverse medical imaging workflows, enhancing both efficiency and accuracy. Extensive experiments show that MedSegFactory generates data of superior quality and usability, achieving competitive or state-of-the-art performance in 2D and 3D segmentation tasks while addressing data scarcity and regulatory constraints.

arxiv情報

著者 Jiawei Mao,Yuhan Wang,Yucheng Tang,Daguang Xu,Kang Wang,Yang Yang,Zongwei Zhou,Yuyin Zhou
発行日 2025-04-09 13:56:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | MedSegFactory: Text-Guided Generation of Medical Image-Mask Pairs はコメントを受け付けていません

FIORD: A Fisheye Indoor-Outdoor Dataset with LIDAR Ground Truth for 3D Scene Reconstruction and Benchmarking

要約

大規模な3Dシーンの再構築と新規ビューの合成方法の開発は、主に狭い視野(FOV)を持つ視点画像を含むデータセットに依存しています。
小規模なシーンには効果的ですが、これらのデータセットには大きな画像セットとモーションからの広範な構造(SFM)処理が必要で、スケーラビリティが制限されます。
これに対処するために、シーンの再構築タスクに合わせて調整されたフィッシュアイ画像データセットを紹介します。
デュアル200度フィッシュアイレンズを使用して、データセットは、5つの屋内と5つの屋外シーンの360度のカバーを完全に提供します。
各シーンには、SFMポイントクラウドがまばらになり、幾何学的な地下真実として使用できるLidar由来の密なポイント雲があり、閉塞や反射などの困難な条件下で堅牢なベンチマークを可能にします。
ベースライン実験は、バニラガウススプラッティングとNERFベースのネルファクトメソッドに焦点を当てていますが、データセットはシーンの再構築、新しいビューの合成、画像ベースのレンダリングのための多様なアプローチをサポートしています。

要約(オリジナル)

The development of large-scale 3D scene reconstruction and novel view synthesis methods mostly rely on datasets comprising perspective images with narrow fields of view (FoV). While effective for small-scale scenes, these datasets require large image sets and extensive structure-from-motion (SfM) processing, limiting scalability. To address this, we introduce a fisheye image dataset tailored for scene reconstruction tasks. Using dual 200-degree fisheye lenses, our dataset provides full 360-degree coverage of 5 indoor and 5 outdoor scenes. Each scene has sparse SfM point clouds and precise LIDAR-derived dense point clouds that can be used as geometric ground-truth, enabling robust benchmarking under challenging conditions such as occlusions and reflections. While the baseline experiments focus on vanilla Gaussian Splatting and NeRF based Nerfacto methods, the dataset supports diverse approaches for scene reconstruction, novel view synthesis, and image-based rendering.

arxiv情報

著者 Ulas Gunes,Matias Turkulainen,Xuqian Ren,Arno Solin,Juho Kannala,Esa Rahtu
発行日 2025-04-09 13:59:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FIORD: A Fisheye Indoor-Outdoor Dataset with LIDAR Ground Truth for 3D Scene Reconstruction and Benchmarking はコメントを受け付けていません

UKBOB: One Billion MRI Labeled Masks for Generalizable 3D Medical Image Segmentation

要約

医療イメージングでは、主な課題は、プライバシーの懸念、ロジスティクス、および高いラベルコストのために、大規模なラベル付きデータを収集することです。
この作業では、51,761 MRI 3Dサンプル(1790万の2D画像に相当)と72個のオルガンの13億7000億個以上の2Dセグメンテーションマスク、すべてがUK Biobank MRI Datasetに基づいている英国のバイオバンク臓器と骨(UKBOB)(UKBOB)を紹介します。
自動ラベルを利用して、臓器固有のフィルターを使用した自動ラベルクリーニングパイプラインを導入し、300 MRIのサブセットに11の腹部クラスを手動で注釈して、品質を検証します(UKBOB-Manualと呼ばれます)。
このアプローチにより、ラベルに信頼性を維持しながら、データセットコレクションをスケーリングすることができます。
さらに、フィルタリングされたUKBOB上の訓練されたモデルのゼロショット一般化を、同様のドメインからの他の小さなラベル付きデータセット(腹部MRIなど)にゼロショット一般化を実証することにより、ラベルの妥当性をさらに確認します。
ノイズの多いラベルの効果をさらに軽減するために、セグメンテーション出力を改良するためにエントロピーテスト時間適応(ETTA)と呼ばれる新しい方法を提案します。
UKBOBを使用して、SWIN-UNETRアーキテクチャに基づいた3D医療画像セグメンテーションのために基礎モデルのSwin-BOBをトレーニングし、3D脳腫瘍チャレンジ(0.4%改善を伴う)およびBTCV腹部CTスカンベンチマーク(1.3%改善)を含む3D医療イメージングのいくつかのベンチマークで最先端の結果を達成します。
事前に訓練されたモデルとコードは、https://emmanuelleb985.github.io/ukbobで入手でき、フィルタリングされたラベルは英国のBiobankで利用可能になります。

要約(オリジナル)

In medical imaging, the primary challenge is collecting large-scale labeled data due to privacy concerns, logistics, and high labeling costs. In this work, we present the UK Biobank Organs and Bones (UKBOB), the largest labeled dataset of body organs, comprising 51,761 MRI 3D samples (equivalent to 17.9 million 2D images) and more than 1.37 billion 2D segmentation masks of 72 organs, all based on the UK Biobank MRI dataset. We utilize automatic labeling, introduce an automated label cleaning pipeline with organ-specific filters, and manually annotate a subset of 300 MRIs with 11 abdominal classes to validate the quality (referred to as UKBOB-manual). This approach allows for scaling up the dataset collection while maintaining confidence in the labels. We further confirm the validity of the labels by demonstrating zero-shot generalization of trained models on the filtered UKBOB to other small labeled datasets from similar domains (e.g., abdominal MRI). To further mitigate the effect of noisy labels, we propose a novel method called Entropy Test-time Adaptation (ETTA) to refine the segmentation output. We use UKBOB to train a foundation model, Swin-BOB, for 3D medical image segmentation based on the Swin-UNetr architecture, achieving state-of-the-art results in several benchmarks in 3D medical imaging, including the BRATS brain MRI tumor challenge (with a 0.4% improvement) and the BTCV abdominal CT scan benchmark (with a 1.3% improvement). The pre-trained models and the code are available at https://emmanuelleb985.github.io/ukbob , and the filtered labels will be made available with the UK Biobank.

arxiv情報

著者 Emmanuelle Bourigault,Amir Jamaludin,Abdullah Hamdi
発行日 2025-04-09 14:10:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | UKBOB: One Billion MRI Labeled Masks for Generalizable 3D Medical Image Segmentation はコメントを受け付けていません

An Analysis of Temporal Dropout in Earth Observation Time Series for Regression Tasks

要約

時系列データに不足しているインスタンスは、特に回帰タスクにおいて、深い学習モデルに大きな課題を課します。
地球観測場では、衛星の故障または雲の閉塞により、タイムステップが欠落していることがよくあり、予測された出力に不確実性が導入され、予測性能が低下します。
多くの研究は、モデルの堅牢性を改善するためにデータの増強を通じて時間ステップの欠落に対処していますが、入力レベルで発生する不確実性は一般的に見落とされています。
このギャップに対処するために、モンテカルロ時間ドロップアウト(MC-TD)を導入します。これは、事前定義されたドロップアウト比を使用して、推論中にラン​​ダムにタイムステップをドロップすることにより、入力レベルの不確実性を明示的に説明し、それによって欠損データの効果をシミュレートする方法です。
最適なドロップアウト比の費用のかかる検索の必要性をバイパスするために、最適なドロップアウト分布を直接学習する方法であるモンテカルロコンクリートの時間的ドロップアウト(MC-CONCTD)でこのアプローチを拡張します。
MC-TDとMC-CONCTDの両方が推論中に適用され、不確実性の定量化のためにモンテカルロサンプリングを活用します。
3つのEO時系列データセットでの実験は、MC-CONCTDが既存のアプローチと比較して予測パフォーマンスと不確実性のキャリブレーションを改善することを示しています。
さらに、手動の選択よりも適応ドロップアウトチューニングの利点を強調し、EOアプリケーションで不確実性の定量化をより堅牢でアクセスしやすくします。

要約(オリジナル)

Missing instances in time series data impose a significant challenge to deep learning models, particularly in regression tasks. In the Earth Observation field, satellite failure or cloud occlusion frequently results in missing time-steps, introducing uncertainties in the predicted output and causing a decline in predictive performance. While many studies address missing time-steps through data augmentation to improve model robustness, the uncertainty arising at the input level is commonly overlooked. To address this gap, we introduce Monte Carlo Temporal Dropout (MC-TD), a method that explicitly accounts for input-level uncertainty by randomly dropping time-steps during inference using a predefined dropout ratio, thereby simulating the effect of missing data. To bypass the need for costly searches for the optimal dropout ratio, we extend this approach with Monte Carlo Concrete Temporal Dropout (MC-ConcTD), a method that learns the optimal dropout distribution directly. Both MC-TD and MC-ConcTD are applied during inference, leveraging Monte Carlo sampling for uncertainty quantification. Experiments on three EO time-series datasets demonstrate that MC-ConcTD improves predictive performance and uncertainty calibration compared to existing approaches. Additionally, we highlight the advantages of adaptive dropout tuning over manual selection, making uncertainty quantification more robust and accessible for EO applications.

arxiv情報

著者 Miro Miranda,Francisco Mena,Andreas Dengel
発行日 2025-04-09 14:23:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | An Analysis of Temporal Dropout in Earth Observation Time Series for Regression Tasks はコメントを受け付けていません

S-EO: A Large-Scale Dataset for Geometry-Aware Shadow Detection in Remote Sensing Applications

要約

S-EOデータセットを紹介します。ジオメトリ認識シャドウ検出を進めるために設計された大規模で高解像度のデータセットです。
チャレンジデータセットやUSGSなどの政府プロバイダーを含む多様なパブリックドメインソースから収集されたデータセットは、それぞれ500×500 mをカバーしている米国中の702のジオリファレンスタイルで構成されています。
各タイルには、マルチデートのマルチアングルワールドビュー-3パンシャープレンズRGB画像、パンクロマティック画像、およびLIDARスキャンから得られた領域の地上DSMが含まれています。
各画像について、ジオメトリと太陽の位置から派生​​した影のマスク、NDVIインデックスに基づく植生マスク、およびバンドル調整されたRPCモデルを提供します。
約20,000枚の画像を使用して、S-EOデータセットは、リモートセンシング画像と3D再構成へのアプリケーションでのシャドウ検出のための新しいパブリックリソースを確立します。
データセットの影響を実証するために、シャドウ検出器をトレーニングおよび評価し、空中画像にも一般化する能力を紹介します。
最後に、衛星画像の最先端のNERFアプローチであるEO-NERFを拡張して、3D再構成を改善するためにシャドウ予測を活用します。

要約(オリジナル)

We introduce the S-EO dataset: a large-scale, high-resolution dataset, designed to advance geometry-aware shadow detection. Collected from diverse public-domain sources, including challenge datasets and government providers such as USGS, our dataset comprises 702 georeferenced tiles across the USA, each covering 500×500 m. Each tile includes multi-date, multi-angle WorldView-3 pansharpened RGB images, panchromatic images, and a ground-truth DSM of the area obtained from LiDAR scans. For each image, we provide a shadow mask derived from geometry and sun position, a vegetation mask based on the NDVI index, and a bundle-adjusted RPC model. With approximately 20,000 images, the S-EO dataset establishes a new public resource for shadow detection in remote sensing imagery and its applications to 3D reconstruction. To demonstrate the dataset’s impact, we train and evaluate a shadow detector, showcasing its ability to generalize, even to aerial images. Finally, we extend EO-NeRF – a state-of-the-art NeRF approach for satellite imagery – to leverage our shadow predictions for improved 3D reconstructions.

arxiv情報

著者 Masquil Elías,Marí Roger,Ehret Thibaud,Meinhardt-Llopis Enric,Musé Pablo,Facciolo Gabriele
発行日 2025-04-09 14:25:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | S-EO: A Large-Scale Dataset for Geometry-Aware Shadow Detection in Remote Sensing Applications はコメントを受け付けていません

Atlas Gaussians Diffusion for 3D Generation

要約

潜在的な拡散モデルを使用すると、新しい3D生成技術の開発に効果的であることが証明されています。
潜在的な拡散モデルを活用するために、重要な課題は、潜在的な空間と3D空間をリンクする高忠実度と効率的な表現を設計することです。
この論文では、フィードフォワードネイティブ3D世代の新しい表現であるAtlas Gaussiansを紹介します。
Atlas Gaussiansは、ローカルパッチの結合として形状を表し、各パッチは3Dガウス人をデコードできます。
パッチを特徴ベクトルのシーケンスとしてパラメーター化し、機能ベクターから3Dガウスをデコードする学習可能な関数を設計します。
このプロセスでは、UVベースのサンプリングを組み込み、十分に大きく、理論的に無限の3Dガウスポイントの数の生成を可能にします。
大量の3Dガウス人は、高品質の詳細の生成を可能にします。
さらに、表現に対する現地の認識により、変圧器ベースのデコード手順はパッチレベルで動作し、効率を確保します。
Atlas Gaussiansの表現を学習するために変分自動エンコーダーを訓練し、3D世代を学習するための潜在スペースに潜在的な拡散モデルを適用します。
実験は、私たちのアプローチが、フィードフォワードネイティブ3D世代の以前の芸術を上回ることを示しています。
プロジェクトページ:https://yanghtr.github.io/projects/atlas_gaussians。

要約(オリジナル)

Using the latent diffusion model has proven effective in developing novel 3D generation techniques. To harness the latent diffusion model, a key challenge is designing a high-fidelity and efficient representation that links the latent space and the 3D space. In this paper, we introduce Atlas Gaussians, a novel representation for feed-forward native 3D generation. Atlas Gaussians represent a shape as the union of local patches, and each patch can decode 3D Gaussians. We parameterize a patch as a sequence of feature vectors and design a learnable function to decode 3D Gaussians from the feature vectors. In this process, we incorporate UV-based sampling, enabling the generation of a sufficiently large, and theoretically infinite, number of 3D Gaussian points. The large amount of 3D Gaussians enables the generation of high-quality details. Moreover, due to local awareness of the representation, the transformer-based decoding procedure operates on a patch level, ensuring efficiency. We train a variational autoencoder to learn the Atlas Gaussians representation, and then apply a latent diffusion model on its latent space for learning 3D Generation. Experiments show that our approach outperforms the prior arts of feed-forward native 3D generation. Project page: https://yanghtr.github.io/projects/atlas_gaussians.

arxiv情報

著者 Haitao Yang,Yuan Dong,Hanwen Jiang,Dejia Xu,Georgios Pavlakos,Qixing Huang
発行日 2025-04-09 14:27:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Atlas Gaussians Diffusion for 3D Generation はコメントを受け付けていません

Leveraging Anatomical Priors for Automated Pancreas Segmentation on Abdominal CT

要約

CTでの膵臓の正確なセグメンテーションは、膵臓病理を特定し、イメージングベースのバイオマーカーを抽出するために重要です。
ただし、膵臓のセグメンテーションに関する以前の研究では、主にセグメンテーションモデルアーキテクチャの変更、または前処理技術の利用に焦点を当てています。
この記事では、膵臓のセグメンテーション性能を強化するために、解剖学的前層の有用性を調査します。
2つの3Dフル解像度NNU-NETモデルがトレーニングされました。1つはパノラマデータセットから8つの洗練されたラベルを備えており、もう1つはパブリックTotalSegmentator(TS)ツールから派生したラベルと組み合わせたものです。
解剖学的前層を追加すると、膵臓セグメンテーションのためにDICEスコアが6 \%増加し、Hausdorff距離が36.5 mm減少しました($ P <.001 $)。 さらに、解剖学的前層が使用されたときに膵臓は常に検出されましたが、使用せずに検出に失敗した8つのインスタンスがありました。 解剖学的前症の使用は、膵臓のセグメンテーションとその後のイメージングバイオマーカーの導出に有望です。

要約(オリジナル)

An accurate segmentation of the pancreas on CT is crucial to identify pancreatic pathologies and extract imaging-based biomarkers. However, prior research on pancreas segmentation has primarily focused on modifying the segmentation model architecture or utilizing pre- and post-processing techniques. In this article, we investigate the utility of anatomical priors to enhance the segmentation performance of the pancreas. Two 3D full-resolution nnU-Net models were trained, one with 8 refined labels from the public PANORAMA dataset, and another that combined them with labels derived from the public TotalSegmentator (TS) tool. The addition of anatomical priors resulted in a 6\% increase in Dice score ($p < .001$) and a 36.5 mm decrease in Hausdorff distance for pancreas segmentation ($p < .001$). Moreover, the pancreas was always detected when anatomy priors were used, whereas there were 8 instances of failed detections without their use. The use of anatomy priors shows promise for pancreas segmentation and subsequent derivation of imaging biomarkers.

arxiv情報

著者 Anisa V. Prasad,Tejas Sudharshan Mathai,Pritam Mukherjee,Jianfei Liu,Ronald M. Summers
発行日 2025-04-09 14:29:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | Leveraging Anatomical Priors for Automated Pancreas Segmentation on Abdominal CT はコメントを受け付けていません

Longitudinal Assessment of Lung Lesion Burden in CT

要約

米国では、肺がんは2番目の主要な死因です。
疑わしい肺結節の早期発見は、患者の治療計画、管理、および結果の改善に不可欠です。
肺結節のセグメンテーションと体積分析の多くのアプローチが提案されていますが、肺腫瘍全体の負担の縦方向の変化を検討している人はほとんどいません。
この作業では、肺病変を自動的にセグメント化し、各患者の総病変の負担を定量化するために、解剖学的前層の有無にかかわらず2つの3Dモデル(NNUNET)をトレーニングしました。
Priorsのない3Dモデルは、解剖学的で訓練されたモデルを大幅に上回る($ p <.001 $)。 臨床的に有意な病変を検出するために、$ 1cm> $ 1cm、71.3 \%の精度、68.4 \%の感度、および69.8 \%のF1スコアが達成されました。
セグメンテーションのために、77.1 $ \ pm $ 20.3のサイコロスコアと11.7 $ \ pm $ 24.1 mmのhausdorff距離エラーが得られました。
病変の負担の中央値は6.4 cc(IQR:2.1、18.1)であり、手動測定と自動測定の間の体積差の中央値は0.02 cc(IQR:-2.8、1.2)でした。
また、契約は線形回帰とブランド・アルトマンのプロットで評価されました。
提案されたアプローチは、患者の総腫瘍負担の個別評価を生み出し、時間の経過とともに間隔の変化追跡を促進することができます。

要約(オリジナル)

In the U.S., lung cancer is the second major cause of death. Early detection of suspicious lung nodules is crucial for patient treatment planning, management, and improving outcomes. Many approaches for lung nodule segmentation and volumetric analysis have been proposed, but few have looked at longitudinal changes in total lung tumor burden. In this work, we trained two 3D models (nnUNet) with and without anatomical priors to automatically segment lung lesions and quantified total lesion burden for each patient. The 3D model without priors significantly outperformed ($p < .001$) the model trained with anatomy priors. For detecting clinically significant lesions $>$ 1cm, a precision of 71.3\%, sensitivity of 68.4\%, and F1-score of 69.8\% was achieved. For segmentation, a Dice score of 77.1 $\pm$ 20.3 and Hausdorff distance error of 11.7 $\pm$ 24.1 mm was obtained. The median lesion burden was 6.4 cc (IQR: 2.1, 18.1) and the median volume difference between manual and automated measurements was 0.02 cc (IQR: -2.8, 1.2). Agreements were also evaluated with linear regression and Bland-Altman plots. The proposed approach can produce a personalized evaluation of the total tumor burden for a patient and facilitate interval change tracking over time.

arxiv情報

著者 Tejas Sudharshan Mathai,Benjamin Hou,Ronald M. Summers
発行日 2025-04-09 14:30:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | Longitudinal Assessment of Lung Lesion Burden in CT はコメントを受け付けていません