SparC: Sparse Representation and Construction for High-Resolution 3D Shapes Modeling

要約

高忠実度の3Dオブジェクト合成は、メッシュデータの構造化されていない性質と密な体積グリッドの立方体の複雑さにより、2D画像生成よりも依然として困難なままです。
VAEを使用した既存の2段パイプラインを圧縮するメッシュ(2Dまたは3Dの監督を使用)に続いて、VAEで導入された非効率的な表現とモダリティミスマッチによって引き起こされる深刻な細部喪失に苦しむ。
SPARCを紹介します。これは、スパース変形可能なマーチングキューブ表現のスパーセキューブと新しいエンコーダーSparConv-Vaeを組み合わせた統一されたフレームワークを紹介します。
スパーセキューブは、生のメッシュを高解像度($ 1024^3 $)の表面に変換し、署名された距離と変形場をまばらな立方体に散乱させ、微分可能な最適化を可能にします。
SPARCONV-VAEは、まばらな畳み込みネットワーク上に完全に構​​築された最初のモダリティ一貫性のある変動自動エンコーダーであり、潜在的な拡散を介した高解像度の生成モデリングに適した効率的かつほぼ失われた3D再構成を可能にします。
SPARCは、開いた表面、切断されたコンポーネント、複雑な幾何学など、挑戦的な入力で最先端の再構成の忠実度を達成します。
細粒の形状のディテールを保存し、トレーニングと推論コストを削減し、スケーラブルで高解像度の3D生成の潜在的な拡散モデルと自然に統合します。

要約(オリジナル)

High-fidelity 3D object synthesis remains significantly more challenging than 2D image generation due to the unstructured nature of mesh data and the cubic complexity of dense volumetric grids. Existing two-stage pipelines-compressing meshes with a VAE (using either 2D or 3D supervision), followed by latent diffusion sampling-often suffer from severe detail loss caused by inefficient representations and modality mismatches introduced in VAE. We introduce SparC, a unified framework that combines a sparse deformable marching cubes representation SparseCubes with a novel encoder SparConv-VAE. SparseCubes converts raw meshes into high-resolution ($1024^3$) surfaces with arbitrary topology by scattering signed distance and deformation fields onto a sparse cube, allowing differentiable optimization. SparConv-VAE is the first modality-consistent variational autoencoder built entirely upon sparse convolutional networks, enabling efficient and near-lossless 3D reconstruction suitable for high-resolution generative modeling through latent diffusion. SparC achieves state-of-the-art reconstruction fidelity on challenging inputs, including open surfaces, disconnected components, and intricate geometry. It preserves fine-grained shape details, reduces training and inference cost, and integrates naturally with latent diffusion models for scalable, high-resolution 3D generation.

arxiv情報

著者 Zhihao Li,Yufei Wang,Heliang Zheng,Yihao Luo,Bihan Wen
発行日 2025-05-20 15:44:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SparC: Sparse Representation and Construction for High-Resolution 3D Shapes Modeling はコメントを受け付けていません

diffDemorph: Extending Reference-Free Demorphing to Unseen Faces

要約

Face Morphは、2つの(またはそれ以上)の2つ(またはそれ以上)のIDに対応する2つ(またはそれ以上)の顔の画像を組み合わせて、構成要素のアイデンティティと正常に一致する複合材を生成することによって作成されます。
リファレンスフリー(RF)Demorphingは、追加の参照画像を必要とせずに、モーフ画像のみを使用してこのプロセスを逆転させます。
以前のRFデモーフィング方法は、使用されたモーフィング手法、フェイススタイル、モーフの作成に使用される画像など、トレーニングとテストモーフの分布に関する仮定に依存しているため、過度に制約されていました。
この論文では、視覚的な忠実度が高い複合モーフ画像からコンポーネント画像を効果的に解き放つ新しい拡散ベースのアプローチを紹介します。
私たちの方法は、テストされたすべてのデータセットで一般的なトレーニングプロトコルで$ \ geq 59.46 \%$で現在の最新技術を破り、モーフテクニックとフェイススタイル全体で一般化する最初の方法です。
合成的に生成されたフェイス画像を使用して作成されたモーフに関する方法をトレーニングし、実際のモーフでテストし、それにより技術の実用性を高めます。
6つのデータセットと2つのフェイスマッチャーでの実験により、この方法の有効性と有効性が確立されます。

要約(オリジナル)

A face morph is created by combining two (or more) face images corresponding to two (or more) identities to produce a composite that successfully matches the constituent identities. Reference-free (RF) demorphing reverses this process using only the morph image, without the need for additional reference images. Previous RF demorphing methods were overly constrained, as they rely on assumptions about the distributions of training and testing morphs such as the morphing technique used, face style, and images used to create the morph. In this paper, we introduce a novel diffusion-based approach that effectively disentangles component images from a composite morph image with high visual fidelity. Our method is the first to generalize across morph techniques and face styles, beating the current state of the art by $\geq 59.46\%$ under a common training protocol across all datasets tested. We train our method on morphs created using synthetically generated face images and test on real morphs, thereby enhancing the practicality of the technique. Experiments on six datasets and two face matchers establish the utility and efficacy of our method.

arxiv情報

著者 Nitish Shukla,Arun Ross
発行日 2025-05-20 15:48:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | diffDemorph: Extending Reference-Free Demorphing to Unseen Faces はコメントを受け付けていません

Personalize Your Gaussian: Consistent 3D Scene Personalization from a Single Image

要約

単一のリファレンス画像から3Dシーンをパーソナライズすると、直感的なユーザーガイド付き編集が可能になり、視点間でマルチビューの一貫性と入力画像との参照の一貫性の両方を達成する必要があります。
ただし、これらの目標は、単一の画像で提供される限られた視点によって引き起こされる視点バイアスのために、特に困難です。
元のビューを超えて参照情報を効果的に拡張するメカニズムがないため、画像条件付けされた3DGSパーソナライズの既存の方法は、この観点のバイアスに苦しみ、一貫した結果を生み出すのに苦労します。
したがって、このホワイトペーパーでは、3Dガウススプラッティング(CP-GS)の一貫したパーソナライズを提示します。これは、新しい視点へのシングルビュー参照の外観を徐々に伝播するフレームワークです。
特に、CP-GSは、事前に訓練された画像から3Dの発電と反復的なロラの微調整を統合して、参照の外観を抽出および拡張し、最終的に、幾何学的キューに導かれるビューコンシンゲーション生成プロセスを通じて、忠実なマルチビューガイダンス画像とパーソナライズされた3DGS出力を生成します。
現実世界のシーンでの広範な実験は、CP-Gが視点バイアスを効果的に軽減し、既存の方法を大幅に上回る高品質のパーソナライズを達成することを示しています。
コードはhttps://github.com/yuxuan-w/cp-gsでリリースされます。

要約(オリジナル)

Personalizing 3D scenes from a single reference image enables intuitive user-guided editing, which requires achieving both multi-view consistency across perspectives and referential consistency with the input image. However, these goals are particularly challenging due to the viewpoint bias caused by the limited perspective provided in a single image. Lacking the mechanisms to effectively expand reference information beyond the original view, existing methods of image-conditioned 3DGS personalization often suffer from this viewpoint bias and struggle to produce consistent results. Therefore, in this paper, we present Consistent Personalization for 3D Gaussian Splatting (CP-GS), a framework that progressively propagates the single-view reference appearance to novel perspectives. In particular, CP-GS integrates pre-trained image-to-3D generation and iterative LoRA fine-tuning to extract and extend the reference appearance, and finally produces faithful multi-view guidance images and the personalized 3DGS outputs through a view-consistent generation process guided by geometric cues. Extensive experiments on real-world scenes show that our CP-GS effectively mitigates the viewpoint bias, achieving high-quality personalization that significantly outperforms existing methods. The code will be released at https://github.com/Yuxuan-W/CP-GS.

arxiv情報

著者 Yuxuan Wang,Xuanyu Yi,Qingshan Xu,Yuan Zhou,Long Chen,Hanwang Zhang
発行日 2025-05-20 15:55:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Personalize Your Gaussian: Consistent 3D Scene Personalization from a Single Image はコメントを受け付けていません

Neural Video Compression with Context Modulation

要約

効率的なビデオコーディングは、時間的冗長性の悪用に大きく依存しています。これは、通常、新しい条件付きコーディングベースのニューラルビデオコーデック(NVC)の時間的コンテキストを抽出および活用することによって達成されます。
最新のNVCは圧縮性能の向上において顕著な進歩を遂げましたが、固有の時間的コンテキスト伝播メカニズムには、参照情報を十分に活用し、さらなる改善を制限する能力がありません。
この論文では、2つのステップでの参照フレームと時間的コンテキストを調整することにより、制限に対処します。
具体的には、最初に、追加指向の時間コンテキストを生成するために、参照フレームと予測フレームの間の相互相関を採掘するためのフロー方向を提案します。
さらに、コンテキスト補償を導入して、指向されたコンテキストを活用して、伝播された参照機能から生成された伝播された時間的コンテキストを調節します。
相乗メカニズムと分離損失監督を通じて、無関係な伝播情報を効果的に排除して、より良いコンテキストモデリングを確保することができます。
実験結果は、私たちのコーデックが、高度な従来のビデオコーデックH.266/VVCよりも平均22.7%のビットレート削減を達成し、以前の最先端のNVC DCVC-FMよりも平均10.1%のビットレートを保存することを示しています。
このコードは、https://github.com/austin4ustc/dcmvcで入手できます。

要約(オリジナル)

Efficient video coding is highly dependent on exploiting the temporal redundancy, which is usually achieved by extracting and leveraging the temporal context in the emerging conditional coding-based neural video codec (NVC). Although the latest NVC has achieved remarkable progress in improving the compression performance, the inherent temporal context propagation mechanism lacks the ability to sufficiently leverage the reference information, limiting further improvement. In this paper, we address the limitation by modulating the temporal context with the reference frame in two steps. Specifically, we first propose the flow orientation to mine the inter-correlation between the reference frame and prediction frame for generating the additional oriented temporal context. Moreover, we introduce the context compensation to leverage the oriented context to modulate the propagated temporal context generated from the propagated reference feature. Through the synergy mechanism and decoupling loss supervision, the irrelevant propagated information can be effectively eliminated to ensure better context modeling. Experimental results demonstrate that our codec achieves on average 22.7% bitrate reduction over the advanced traditional video codec H.266/VVC, and offers an average 10.1% bitrate saving over the previous state-of-the-art NVC DCVC-FM. The code is available at https://github.com/Austin4USTC/DCMVC.

arxiv情報

著者 Chuanbo Tang,Zhuoyuan Li,Yifan Bian,Li Li,Dong Liu
発行日 2025-05-20 15:57:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Neural Video Compression with Context Modulation はコメントを受け付けていません

Universal Incremental Learning: Mitigating Confusion from Inter- and Intra-task Distribution Randomness

要約

Incremental Learning(IL)は、新しいタスクを学習しながら、以前のタスクの壊滅的な忘却を克服することを目指しています。
既存のILメソッドは、着信タスクタイプが新しいクラスまたはドメイン(つまり、クラスIL、ドメインIL)のみを増加させるか、クラスとドメインとドメインの存在する方法(すなわち汎用性のあるIL(VIL))で静的なスケールで増加することのいずれかで、予測不可能な動的野生での適用性を大幅に制限するという強い仮定を行います。
この作業では、$ \ textBf {Universal Incremental Learning(UIL)} $を調査します。ここでは、どの新しいクラスまたはドメインがシーケンシャルタスクに沿って増加するかも、各タスク内の増分のスケールも把握していません。
この不確実性により、モデルはすべてのタスク分布から知識を自信を持って学習し、各タスク分布内の多様な知識に対称的に焦点を当てていることを防ぎます。
その結果、UILはより一般的で現実的なILシナリオを提示し、タスク間およびタスク内分布のランダム性から生じるモデルの直面の混乱を表します。
$ \ textbf {mi} $ tigate tigateの両方の$ \ textbf {co} $ nfusion、$ \ textbf {mico} $という名前のuilのシンプルで効果的なフレームワークを提案します。
タスク間分布レベルでは、多目的学習スキームを採用して正確で決定論的な予測を実施し、その有効性は、競合する勾配を減らす方向再生モジュールによってさらに強化されます。
さらに、タスク内分布レベルで、不均衡なクラス分布に対する非対称的な最適化を軽減するために、マグニチュード再調整モジュールを導入します。
3つのベンチマークでの広範な実験は、私たちの方法の有効性を示しており、UILシナリオとVILシナリオの両方で既存の最先端の方法を上回っています。
私たちのコードは、$ \ href {https://github.com/rolsheng/uil} {here} $で入手できます。

要約(オリジナル)

Incremental learning (IL) aims to overcome catastrophic forgetting of previous tasks while learning new ones. Existing IL methods make strong assumptions that the incoming task type will either only increases new classes or domains (i.e. Class IL, Domain IL), or increase by a static scale in a class- and domain-agnostic manner (i.e. Versatile IL (VIL)), which greatly limit their applicability in the unpredictable and dynamic wild. In this work, we investigate $\textbf{Universal Incremental Learning (UIL)}$, where a model neither knows which new classes or domains will increase along sequential tasks, nor the scale of the increments within each task. This uncertainty prevents the model from confidently learning knowledge from all task distributions and symmetrically focusing on the diverse knowledge within each task distribution. Consequently, UIL presents a more general and realistic IL scenario, making the model face confusion arising from inter-task and intra-task distribution randomness. To $\textbf{Mi}$tigate both $\textbf{Co}$nfusion, we propose a simple yet effective framework for UIL, named $\textbf{MiCo}$. At the inter-task distribution level, we employ a multi-objective learning scheme to enforce accurate and deterministic predictions, and its effectiveness is further enhanced by a direction recalibration module that reduces conflicting gradients. Moreover, at the intra-task distribution level, we introduce a magnitude recalibration module to alleviate asymmetrical optimization towards imbalanced class distribution. Extensive experiments on three benchmarks demonstrate the effectiveness of our method, outperforming existing state-of-the-art methods in both the UIL scenario and the VIL scenario. Our code will be available at $\href{https://github.com/rolsheng/UIL}{here}$.

arxiv情報

著者 Sheng Luo,Yi Zhou,Tao Zhou
発行日 2025-05-20 16:04:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Universal Incremental Learning: Mitigating Confusion from Inter- and Intra-task Distribution Randomness はコメントを受け付けていません

Dynadiff: Single-stage Decoding of Images from Continuously Evolving fMRI

要約

脳から画像のデコードは、生成AIモデルの進行と、大きな超高磁場機能磁気共鳴画像法(fMRI)の利用可能性によって最近推進されています。
ただし、現在のアプローチは、脳記録の時間的次元を通常崩壊させる複雑な多段階パイプラインと前処理ステップに依存し、それにより時間分解された脳デコーダーが制限されます。
ここでは、動的に進化するfMRI記録から画像を再構築するために設計された新しい単一段階拡散モデルであるDynadiff(画像再構成の動的な神経活動拡散)を紹介します。
私たちのアプローチは、3つの主な貢献を提供します。
まず、Dynadiffは既存のアプローチと比較してトレーニングを簡素化します。
第二に、私たちのモデルは、時間分解されたfMRIシグナル、特に高レベルのセマンティック画像再構成メトリックに関する最先端のモデルよりも優れていますが、時間を崩壊する前処理されたfMRIデータで競争力を維持します。
第三に、このアプローチにより、脳の活動における画像表現の進化の正確な特性評価が可能になります。
全体として、この作業は、時間分解された脳から画像の解読の基礎を築きます。

要約(オリジナル)

Brain-to-image decoding has been recently propelled by the progress in generative AI models and the availability of large ultra-high field functional Magnetic Resonance Imaging (fMRI). However, current approaches depend on complicated multi-stage pipelines and preprocessing steps that typically collapse the temporal dimension of brain recordings, thereby limiting time-resolved brain decoders. Here, we introduce Dynadiff (Dynamic Neural Activity Diffusion for Image Reconstruction), a new single-stage diffusion model designed for reconstructing images from dynamically evolving fMRI recordings. Our approach offers three main contributions. First, Dynadiff simplifies training as compared to existing approaches. Second, our model outperforms state-of-the-art models on time-resolved fMRI signals, especially on high-level semantic image reconstruction metrics, while remaining competitive on preprocessed fMRI data that collapse time. Third, this approach allows a precise characterization of the evolution of image representations in brain activity. Overall, this work lays the foundation for time-resolved brain-to-image decoding.

arxiv情報

著者 Marlène Careil,Yohann Benchetrit,Jean-Rémi King
発行日 2025-05-20 16:14:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Dynadiff: Single-stage Decoding of Images from Continuously Evolving fMRI はコメントを受け付けていません

Neural Inverse Scattering with Score-based Regularization

要約

逆散乱は、顕微鏡検査からリモートセンシングまで、多くのイメージングアプリケーションで根本的な課題です。
この問題を解決するには、多くの場合、2つの未知数(オブジェクト内の画像と散乱フィールド)を共同で推定する必要があります。推論を正規化する前に効果的な画像を必要とします。
この論文では、スコアベースの生成モデルで使用される除去スコア関数を統合する正規化されたニューラルフィールド(NF)アプローチを提案します。
ニューラルフィールドの定式化は、共同推定を実行するのに便利な柔軟性を提供しますが、除去スコア関数は画像の豊富な構造的事前を課します。
3つの高コントラストシミュレーションオブジェクトに関する我々の結果は、提案されたアプローチが、正則化が全体の変動に基づいている最先端のNFアプローチと比較して、より良いイメージング品質をもたらすことを示しています。

要約(オリジナル)

Inverse scattering is a fundamental challenge in many imaging applications, ranging from microscopy to remote sensing. Solving this problem often requires jointly estimating two unknowns — the image and the scattering field inside the object — necessitating effective image prior to regularize the inference. In this paper, we propose a regularized neural field (NF) approach which integrates the denoising score function used in score-based generative models. The neural field formulation offers convenient flexibility to performing joint estimation, while the denoising score function imposes the rich structural prior of images. Our results on three high-contrast simulated objects show that the proposed approach yields a better imaging quality compared to the state-of-the-art NF approach, where regularization is based on total variation.

arxiv情報

著者 Yuan Gao,Wenhan Guo,Yu Sun
発行日 2025-05-20 16:19:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Neural Inverse Scattering with Score-based Regularization はコメントを受け付けていません

Automatic Synthetic Data and Fine-grained Adaptive Feature Alignment for Composed Person Retrieval

要約

人の検索は注目の高まりを引き付けました。
既存の方法は、主に2つの検索モード、つまり画像のみとテキストのみに分割されます。
ただし、利用可能な情報を最大限に活用することができず、多様なアプリケーション要件を満たすことは困難です。
上記の制限に対処するために、視覚的なクエリとテキストのクエリを組み合わせて、大規模な人の画像データベースから関心のある個人を識別する新しい構成者検索(CPR)タスクを提案します。
それにもかかわらず、CPRタスクの最大の難しさは、利用可能な注釈付きデータセットがないことです。
したがって、まず、スケーラブルな自動データ合成パイプラインを導入します。これにより、複雑なマルチモーダルデータ生成がテキスト象限の作成に分解され、その後に微調整された生成モデルを使用したアイデンティティ配置画像合成が行われます。
一方、マルチモーダルフィルタリング方法は、結果として得られるSyncprデータセットが115万の高品質で完全な合成トリプレットを保持するように設計されています。
さらに、構成された人クエリの表現を改善するために、細粒の動的アライメントとマスクされた特徴の推論を介して、新しい微細粒度適応機能アライメント(FAFA)フレームワークを提案します。
さらに、客観的な評価のために、画像テキストの構成人の検索(ITCPR)テストセットに手動で注釈を付けます。
広範な実験は、最先端の方法と比較した場合、SYNCPRデータセットの有効性と提案されたFAFAフレームワークの優位性を示しています。
すべてのコードとデータは、https://github.com/delong-liu-bupt/composed_person_retrievalで提供されます。

要約(オリジナル)

Person retrieval has attracted rising attention. Existing methods are mainly divided into two retrieval modes, namely image-only and text-only. However, they are unable to make full use of the available information and are difficult to meet diverse application requirements. To address the above limitations, we propose a new Composed Person Retrieval (CPR) task, which combines visual and textual queries to identify individuals of interest from large-scale person image databases. Nevertheless, the foremost difficulty of the CPR task is the lack of available annotated datasets. Therefore, we first introduce a scalable automatic data synthesis pipeline, which decomposes complex multimodal data generation into the creation of textual quadruples followed by identity-consistent image synthesis using fine-tuned generative models. Meanwhile, a multimodal filtering method is designed to ensure the resulting SynCPR dataset retains 1.15 million high-quality and fully synthetic triplets. Additionally, to improve the representation of composed person queries, we propose a novel Fine-grained Adaptive Feature Alignment (FAFA) framework through fine-grained dynamic alignment and masked feature reasoning. Moreover, for objective evaluation, we manually annotate the Image-Text Composed Person Retrieval (ITCPR) test set. The extensive experiments demonstrate the effectiveness of the SynCPR dataset and the superiority of the proposed FAFA framework when compared with the state-of-the-art methods. All code and data will be provided at https://github.com/Delong-liu-bupt/Composed_Person_Retrieval.

arxiv情報

著者 Delong Liu,Haiwen Li,Zhaohui Hou,Zhicheng Zhao,Fei Su,Yuan Dong
発行日 2025-05-20 16:29:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.IR | Automatic Synthetic Data and Fine-grained Adaptive Feature Alignment for Composed Person Retrieval はコメントを受け付けていません

Automated Fetal Biometry Assessment with Deep Ensembles using Sparse-Sampling of 2D Intrapartum Ultrasound Images

要約

国際超音波協会は、産科と婦人科(ISUOG)における分娩中の超音波(US)イメージングを提唱し、胎児の頭部の位置の変化を通じて労働の進行を監視しています。
機器の膣分娩の結果を予測するために使用される2つの信頼できる超音波由来パラメーターは、進行角(AOP)と頭視線距離(HSD)です。
この作業では、分娩時超音波Grand Challenge(IUGC)2024の一部として、自動化された胎児生体測定測定パイプラインを提案して、観察者内および観察者間の変動性を低下させ、測定の信頼性を改善します。
パイプラインは、3つの重要なタスクで構成されています:(i)米国のビデオからの標準平面(SP)の分類、(ii)検出されたSPSからの恥骨ヘッドのセグメンテーション、および(iii)セグメント化された領域からのAOPおよびHSDの計算。
クラスの不均衡を軽減し、タスク(i)のスプリアスな相関を軽減するためにまばらなサンプリングを実行し、タスク(i)および(ii)のアンサンブルベースの深い学習方法を利用して、さまざまな米国の取得設定で一般化可能性を高めます。
最後に、タスクIIIの堅牢性を促進するために)測定の構造的忠実度に関して、最大の接続されたコンポーネントを保持し、セグメンテーションに楕円フィッティングを適用します。
私たちのソリューションはACCを達成しました:0.9452、F1:0.9225、AUC:0.983、MCC:0.8361、DSC:0.918、HD:19.73、ASD:5.71、$ \ delta_ {aop} $:8.90および$ \ delta_ {hsd} $ 4.35 set:14.35 set set:14.35 set set:14.35 set set:14.35 set。
提案された自動化されたパイプラインの結果は、労働逮捕の原因の理解を改善し、効率的かつ効果的な出生前ケアのための臨床リスク層別化ツールの開発を導くことができます。

要約(オリジナル)

The International Society of Ultrasound advocates Intrapartum Ultrasound (US) Imaging in Obstetrics and Gynecology (ISUOG) to monitor labour progression through changes in fetal head position. Two reliable ultrasound-derived parameters that are used to predict outcomes of instrumental vaginal delivery are the angle of progression (AoP) and head-symphysis distance (HSD). In this work, as part of the Intrapartum Ultrasounds Grand Challenge (IUGC) 2024, we propose an automated fetal biometry measurement pipeline to reduce intra- and inter-observer variability and improve measurement reliability. Our pipeline consists of three key tasks: (i) classification of standard planes (SP) from US videos, (ii) segmentation of fetal head and pubic symphysis from the detected SPs, and (iii) computation of the AoP and HSD from the segmented regions. We perform sparse sampling to mitigate class imbalances and reduce spurious correlations in task (i), and utilize ensemble-based deep learning methods for task (i) and (ii) to enhance generalizability under different US acquisition settings. Finally, to promote robustness in task iii) with respect to the structural fidelity of measurements, we retain the largest connected components and apply ellipse fitting to the segmentations. Our solution achieved ACC: 0.9452, F1: 0.9225, AUC: 0.983, MCC: 0.8361, DSC: 0.918, HD: 19.73, ASD: 5.71, $\Delta_{AoP}$: 8.90 and $\Delta_{HSD}$: 14.35 across an unseen hold-out set of 4 patients and 224 US frames. The results from the proposed automated pipeline can improve the understanding of labour arrest causes and guide the development of clinical risk stratification tools for efficient and effective prenatal care.

arxiv情報

著者 Jayroop Ramesh,Valentin Bacher,Mark C. Eid,Hoda Kalabizadeh,Christian Rupprecht,Ana IL Namburete,Pak-Hei Yeung,Madeleine K. Wyburd,Nicola K. Dinsdale
発行日 2025-05-20 16:31:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV | Automated Fetal Biometry Assessment with Deep Ensembles using Sparse-Sampling of 2D Intrapartum Ultrasound Images はコメントを受け付けていません

StainDiffuser: MultiTask Dual Diffusion Model for Virtual Staining

要約

ヘマトキシリンとエオシン(H&E)染色は、疾患の診断と腫瘍の再発を追跡するための病理学の標準と広く見なされています。
H&E染色は組織構造を示していますが、疾患の重症度と治療反応に関連する特定のタンパク質を明らかにする能力がありません。
免疫組織化学(IHC)染色は、抗体を使用して、それぞれの細胞型に対するこれらのタンパク質の発現を強調し、診断精度を改善し、治療のための薬物選択を支援します。
その価値にもかかわらず、IHCの染色は追加の時間とリソースを必要とし、いくつかの臨床設定での利用を制限します。
深い学習の最近の進歩により、IHCの計算的で費用対効果の高い代替品として、画像間(I2I)翻訳を配置しました。
I2iは、高忠実度の染色変換をデジタルで生成し、IHCでの手動染色を潜在的に置き換える可能性があります。
画像生成と条件付きタスクにおける現在の最先端の拡散モデルは、高品質の画像を生成し、モード崩壊に対する回復力を生成する能力により、仮想IHCに特に適しています。
ただし、これらのモデルは、堅牢なパフォーマンスを実現するために、広範囲で多様なデータセット(多くの場合数百万のサンプル)が必要です。これは、通常、数千のサンプルのみが利用可能な仮想染色アプリケーションの課題です。
データが限られているシナリオでマルチタスクディープラーニングモデルの成功に触発され、StainDiffuserを紹介します。StainDiffuserは、小さなデータセットで収束を達成する仮想染色に合わせた新しいマルチタスク拡散アーキテクチャです。
staindiffuserは、2つの拡散プロセスを同時にトレーニングします。(a)H&E画像から細胞固有のIHC染色を生成し、(b)トレーニング中にのみ粗いセグメンテーションラベルを利用してH&Eベースの細胞セグメンテーションを実行します。
StainDiffuserは、2つのマーカーに対して高品質の仮想染色を生成し、20を超えるI2Iベースラインを上回ります。

要約(オリジナル)

Hematoxylin and Eosin (H&E) staining is widely regarded as the standard in pathology for diagnosing diseases and tracking tumor recurrence. While H&E staining shows tissue structures, it lacks the ability to reveal specific proteins that are associated with disease severity and treatment response. Immunohistochemical (IHC) stains use antibodies to highlight the expression of these proteins on their respective cell types, improving diagnostic accuracy, and assisting with drug selection for treatment. Despite their value, IHC stains require additional time and resources, limiting their utilization in some clinical settings. Recent advances in deep learning have positioned Image-to-Image (I2I) translation as a computational, cost-effective alternative for IHC. I2I generates high fidelity stain transformations digitally, potentially replacing manual staining in IHC. Diffusion models, the current state of the art in image generation and conditional tasks, are particularly well suited for virtual IHC due to their ability to produce high quality images and resilience to mode collapse. However, these models require extensive and diverse datasets (often millions of samples) to achieve a robust performance, a challenge in virtual staining applications where only thousands of samples are typically available. Inspired by the success of multitask deep learning models in scenarios with limited data, we introduce STAINDIFFUSER, a novel multitask diffusion architecture tailored to virtual staining that achieves convergence with smaller datasets. STAINDIFFUSER simultaneously trains two diffusion processes: (a) generating cell specific IHC stains from H&E images and (b) performing H&E based cell segmentation, utilizing coarse segmentation labels exclusively during training. STAINDIFFUSER generates high-quality virtual stains for two markers, outperforming over twenty I2I baselines.

arxiv情報

著者 Tushar Kataria,Beatrice Knudsen,Shireen Y. Elhabian
発行日 2025-05-20 16:36:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | StainDiffuser: MultiTask Dual Diffusion Model for Virtual Staining はコメントを受け付けていません