RFMI: Estimating Mutual Information on Rectified Flow for Text-to-Image Alignment

要約

フローマッチングフレームワークでトレーニングされた修正フロー(RF)モデルは、テキストからイメージ(T2I)条件付きの最先端のパフォーマンスを達成しました。
しかし、複数のベンチマークは、合成画像がプロンプトとのアラインメントが不十分であること、つまり、画像が間違った属性のバインディング、サブジェクトの位置付け、数値などを示していることを示しています。文献はT2iのアライメントを改善するための多くの方法を提供しますが、拡散モデルのみを考慮し、補助データセット、スコアリングモデル、およびプロンプトの言語分析を必要とします。
この論文では、これらのギャップに対処することを目指しています。
まず、MI推定に事前に訓練されたモデル自体を使用するRFモデルの新しい相互情報(MI)推定器であるRFMIを紹介します。
次に、事前に訓練されたモデル自体以外の補助情報を必要としないRFMIに基づくT2Iアラインメントのための自己監視された微調整アプローチを調査します。
具体的には、事前に訓練されたRFモデルから生成された合成画像を選択し、画像とプロンプトの間に高い点でMIを持つことにより、微調整セットが構築されます。
MI推定ベンチマークでの実験はRFMIの妥当性を示しており、SD3.5メディアムの経験的微調整は、画質を維持しながらT2Iアライメントを改善するためのRFMIの有効性を確認します。

要約(オリジナル)

Rectified Flow (RF) models trained with a Flow matching framework have achieved state-of-the-art performance on Text-to-Image (T2I) conditional generation. Yet, multiple benchmarks show that synthetic images can still suffer from poor alignment with the prompt, i.e., images show wrong attribute binding, subject positioning, numeracy, etc. While the literature offers many methods to improve T2I alignment, they all consider only Diffusion Models, and require auxiliary datasets, scoring models, and linguistic analysis of the prompt. In this paper we aim to address these gaps. First, we introduce RFMI, a novel Mutual Information (MI) estimator for RF models that uses the pre-trained model itself for the MI estimation. Then, we investigate a self-supervised fine-tuning approach for T2I alignment based on RFMI that does not require auxiliary information other than the pre-trained model itself. Specifically, a fine-tuning set is constructed by selecting synthetic images generated from the pre-trained RF model and having high point-wise MI between images and prompts. Our experiments on MI estimation benchmarks demonstrate the validity of RFMI, and empirical fine-tuning on SD3.5-Medium confirms the effectiveness of RFMI for improving T2I alignment while maintaining image quality.

arxiv情報

著者 Chao Wang,Giulio Franzese,Alessandro Finamore,Pietro Michiardi
発行日 2025-03-18 15:41:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | RFMI: Estimating Mutual Information on Rectified Flow for Text-to-Image Alignment はコメントを受け付けていません

ImViD: Immersive Volumetric Videos for Enhanced VR Engagement

要約

ユーザーエンゲージメントは、視覚刺激と聴覚刺激を組み合わせた完全に没入型のマルチモーダルエクスペリエンスによって大幅に強化されます。
その結果、VR/ARテクノロジーの次のフロンティアは、完全なシーンキャプチャ、大きな6-DOF相互作用スペース、マルチモーダルフィードバック、高解像度とフレームレートの内容を備えた没入型のボリュームビデオにあります。
没入型体積ビデオの再構築を刺激するために、完全なスペース指向のデータキャプチャとさまざまな屋内/屋外シナリオを備えたマルチビュー、マルチモーダルデータセットであるIMVIDを紹介します。
Capture Rigは、移動中にマルチビュービデオアディオキャプチャをサポートします。これは、既存のデータセットには存在せず、データキャプチャの完全性、柔軟性、効率を大幅に向上させます。
キャプチャされたマルチビュービデオ(同期オーディオを使用)は、60fpsで5K解像度で、1〜5分間続き、リッチフォアグラウンドバックグラウンドの要素と複雑なダイナミクスが含まれます。
データセットを使用して既存のメソッドをベンチマークし、6-DOFマルチモーダル没入型VRエクスペリエンス用のマルチビューオーディオビジュアル入力から没入型ボリュームビデオを構築するためのベースパイプラインを確立します。
ベンチマークと再構築と相互作用の結果は、データセットとベースライン法の有効性を示しています。これは、没入型の体積ビデオ生産に関する将来の研究を刺激すると考えています。

要約(オリジナル)

User engagement is greatly enhanced by fully immersive multi-modal experiences that combine visual and auditory stimuli. Consequently, the next frontier in VR/AR technologies lies in immersive volumetric videos with complete scene capture, large 6-DoF interaction space, multi-modal feedback, and high resolution & frame-rate contents. To stimulate the reconstruction of immersive volumetric videos, we introduce ImViD, a multi-view, multi-modal dataset featuring complete space-oriented data capture and various indoor/outdoor scenarios. Our capture rig supports multi-view video-audio capture while on the move, a capability absent in existing datasets, significantly enhancing the completeness, flexibility, and efficiency of data capture. The captured multi-view videos (with synchronized audios) are in 5K resolution at 60FPS, lasting from 1-5 minutes, and include rich foreground-background elements, and complex dynamics. We benchmark existing methods using our dataset and establish a base pipeline for constructing immersive volumetric videos from multi-view audiovisual inputs for 6-DoF multi-modal immersive VR experiences. The benchmark and the reconstruction and interaction results demonstrate the effectiveness of our dataset and baseline method, which we believe will stimulate future research on immersive volumetric video production.

arxiv情報

著者 Zhengxian Yang,Shi Pan,Shengqi Wang,Haoxiang Wang,Li Lin,Guanjun Li,Zhengqi Wen,Borong Lin,Jianhua Tao,Tao Yu
発行日 2025-03-18 15:42:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ImViD: Immersive Volumetric Videos for Enhanced VR Engagement はコメントを受け付けていません

The Shape of Attraction in UMAP: Exploring the Embedding Forces in Dimensionality Reduction

要約

均一なマニホールド近似と投影(UMAP)は、最も人気のあるネイバーの埋め込み方法の1つです。
この方法は、高次元のデータポイント間の魅力的で反発的な力に依存して、低次元の埋め込みを取得します。
この論文では、力を分析して、クラスターの形成と視覚化への影響を明らかにします。
反発は違いを強調し、クラスター境界とクラスター間距離を制御します。
ポイント間の魅力的な緊張は、低次元マッピングの魅力と反発として同時に現れる可能性があるため、より微妙です。
これは、学習率のアニーリングの必要性を説明し、魅力的な用語と反発用語の間のさまざまな治療を動機付けます。
さらに、アトラクションを変更することにより、ランダムな初期化下でのクラスター形成の一貫性を改善します。
全体として、私たちの分析により、UMAPと同様の埋め込み方法が、より解釈可能で、より堅牢で、より正確になります。

要約(オリジナル)

Uniform manifold approximation and projection (UMAP) is among the most popular neighbor embedding methods. The method relies on attractive and repulsive forces among high-dimensional data points to obtain a low-dimensional embedding. In this paper, we analyze the forces to reveal their effects on cluster formations and visualization. Repulsion emphasizes differences, controlling cluster boundaries and inter-cluster distance. Attraction is more subtle, as attractive tension between points can manifest simultaneously as attraction and repulsion in the lower-dimensional mapping. This explains the need for learning rate annealing and motivates the different treatments between attractive and repulsive terms. Moreover, by modifying attraction, we improve the consistency of cluster formation under random initialization. Overall, our analysis makes UMAP and similar embedding methods more interpretable, more robust, and more accurate.

arxiv情報

著者 Mohammad Tariqul Islam,Jason W. Fleischer
発行日 2025-03-18 15:48:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | The Shape of Attraction in UMAP: Exploring the Embedding Forces in Dimensionality Reduction はコメントを受け付けていません

Targeted Neural Architectures in Multi-Objective Frameworks for Complete Glioma Characterization from Multimodal MRI

要約

脳腫瘍は、脳組織の異常な細胞増殖に起因します。
診断されていない場合、それらは認知障害、運動機能障害、感覚喪失を含む神経学的欠損を引き起こします。
腫瘍が増加すると、頭蓋内圧が増加し、脳ヘルニアなどの致命的な合併症につながる可能性があります。
早期診断と治療は、これらの効果を制御し、腫瘍の進行を遅くするために重要です。
ディープラーニング(DL)と人工知能(AI)は、磁気共鳴画像(MRI)スキャンを通じて医師が早期診断において医師を支援するためにますます使用されています。
私たちの研究では、この重要な問題を解決するために、マルチモーダルMRI画像のこれらの神経膠腫のグレードをローカライズ、セグメント化、分類できる多目的フレームワーク内の標的標的の神経アーキテクチャを提案しています。
ローカリゼーションフレームワークは、VGG19に触発されたエンコーダーでLinkNetフレームワークを強化するターゲットアーキテクチャを利用して、腫瘍からのより良いマルチモーダル特徴抽出と、特徴の焦点と機能間関係をシャープにする空間およびグラフの注意メカニズムを使用します。
セグメンテーションの目的では、seresnet101 CNNモデルを使用して、リンクネットアーキテクチャに統合されたエンコーダバックボーンとして専門的なフレームワークを展開し、96%のIOUスコアを達成しました。
分類目標は、SERESNET152特徴抽出器と適応ブースト分類器を組み合わせて、98.53%の精度に達することにより実装された明確なフレームワークを通じて対処されます。
ターゲットを絞ったニューラルアーキテクチャを備えた多目的アプローチは、完全な神経膠腫特性評価の有望な結果を示しました。これは、早期診断を可能にし、患者により正確な治療オプションを提供することにより、医療AIを前進させる可能性があります。

要約(オリジナル)

Brain tumors result from abnormal cell growth in brain tissue. If undiagnosed, they cause neurological deficits, including cognitive impairment, motor dysfunction, and sensory loss. As tumors grow, intracranial pressure increases, potentially leading to fatal complications such as brain herniation. Early diagnosis and treatment are crucial to controlling these effects and slowing tumor progression. Deep learning (DL) and artificial intelligence (AI) are increasingly used to assist doctors in early diagnosis through magnetic resonance imaging (MRI) scans. Our research proposes targeted neural architectures within multi-objective frameworks that can localize, segment, and classify the grade of these gliomas from multimodal MRI images to solve this critical issue. Our localization framework utilizes a targeted architecture that enhances the LinkNet framework with an encoder inspired by VGG19 for better multimodal feature extraction from the tumor along with spatial and graph attention mechanisms that sharpen feature focus and inter-feature relationships. For the segmentation objective, we deployed a specialized framework using the SeResNet101 CNN model as the encoder backbone integrated into the LinkNet architecture, achieving an IoU Score of 96%. The classification objective is addressed through a distinct framework implemented by combining the SeResNet152 feature extractor with Adaptive Boosting classifier, reaching an accuracy of 98.53%. Our multi-objective approach with targeted neural architectures demonstrated promising results for complete glioma characterization, with the potential to advance medical AI by enabling early diagnosis and providing more accurate treatment options for patients.

arxiv情報

著者 Shravan Venkatraman,Pandiyaraju V,Abeshek A,Aravintakshan S A,Pavan Kumar S,Kannan A,Madhan S
発行日 2025-03-18 15:56:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV, I.4.6 | Targeted Neural Architectures in Multi-Objective Frameworks for Complete Glioma Characterization from Multimodal MRI はコメントを受け付けていません

CaReBench: A Fine-Grained Benchmark for Video Captioning and Retrieval

要約

ビデオキャプションや検索を含むビデオの理解は、ビデオ言語モデル(VLM)にとって依然として大きな課題です。
既存のビデオ検索とキャプションベンチマークには、短い説明のみが含まれており、詳細なビデオ理解評価の能力を制限します。
この問題に対処するために、1,000ペアのビデオとヒューマンが注目した詳細なキャプションを備えた、細粒のビデオキャプションと検索のテストベンチマークであるCarebenchを提示します。
ユニークには、各ビデオの手動で分離された空間注釈と時間的注釈を提供します。
このデザインに基づいて、それぞれビデオ検索およびビデオキャプションタスクに合わせて調整された2つの評価メトリック、RebiasとCapstを紹介します。
これらのメトリックにより、VLMに固有の空間的および時間的バイアスを包括的に調査することができます。
さらに、統一されたフレームワークでビデオ検索とビデオキャプションの両方のタスクを処理するために、マルチモーダル言語モデル(MLLM)に基づいた簡単なベースラインを開発します。
2段階の監視された微調整(SFT)を実装することにより、MLLMの可能性のロックを完全に解除し、詳細なビデオ説明を生成するだけでなく、ビデオ機能を抽出することもできます。
驚くべきことに、実験結果は、検索のために設計されたクリップベースのモデルやビデオキャプションに熟練した人気のMLLMと比較して、ベースラインがきめ細かいビデオ検索とビデオの詳細なキャプションの両方で競争力のあるパフォーマンスを示していることを示しています。

要約(オリジナル)

Video understanding, including video captioning and retrieval, is still a great challenge for video-language models (VLMs). The existing video retrieval and caption benchmarks only include short descriptions, limits their ability of detailed video understanding evaluation. To address this problem, we present CaReBench, a testing benchmark for fine-grained video captioning and retrieval with 1,000 high-quality pairs of videos and human-annotated detailed captions. Uniquely, it provides manually separated spatial annotations and temporal annotations for each video. Based on this design, we introduce two evaluation metrics, ReBias and CapST, specifically tailored for video retrieval and video captioning tasks, respectively. These metrics enable a comprehensive investigation into the spatial and temporal biases inherent in VLMs. In addition, to handle both video retrieval and video captioning tasks in a unified framework, we develop a simple baseline based on a Multimodal Language Model (MLLM). By implementing a two-stage Supervised Fine-Tuning (SFT), we fully unlock the potential of MLLM, enabling it not only to generate detailed video descriptions but also to extract video features. Surprisingly, experimental results demonstrate that, compared to the CLIP-based models designed for retrieval and the popular MLLMs skilled in video captioning, our baseline shows competitive performance in both fine-grained video retrieval and video detailed captioning.

arxiv情報

著者 Yifan Xu,Xinhao Li,Yichun Yang,Desen Meng,Rui Huang,Limin Wang
発行日 2025-03-18 16:01:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IR, cs.LG | CaReBench: A Fine-Grained Benchmark for Video Captioning and Retrieval はコメントを受け付けていません

Advancing Medical Representation Learning Through High-Quality Data

要約

医学的視覚言語データセットの規模が増えているにもかかわらず、モデルのパフォーマンスに対するデータセットの品質の影響は引き続き未調査のままです。
PubMed Centralの高品質の医療データセットであるOpen-PMCを紹介します。画像モダリティアノテーション、サブ図、および要約されたテキスト参照が豊富な220万の画像テキストペアを含みます。
特に、テキスト内の参照は、より豊かな医学的コンテキストを提供し、キャプションに通常見られる抽象情報を超えて拡張されます。
広範な実験を通じて、検索およびゼロショット分類タスク全体で、オープンPMCをより大きなデータセットに対してベンチマークします。
私たちの結果は、データセットの品質が大幅にパフォーマンスの向上を獲得するだけでなく、単にサイズを駆動することを示しています。
特徴表現の詳細な分析でベンチマークを補完します。
私たちの調査結果は、マルチモーダルメディカルAIの前進におけるデータキュレーションの質の重要な役割を強調しています。
トレーニングされたモデルとコードベースとともに、Open-PMCをリリースします。

要約(オリジナル)

Despite the growing scale of medical Vision-Language datasets, the impact of dataset quality on model performance remains under-explored. We introduce Open-PMC, a high-quality medical dataset from PubMed Central, containing 2.2 million image-text pairs, enriched with image modality annotations, subfigures, and summarized in-text references. Notably, the in-text references provide richer medical context, extending beyond the abstract information typically found in captions. Through extensive experiments, we benchmark Open-PMC against larger datasets across retrieval and zero-shot classification tasks. Our results show that dataset quality-not just size-drives significant performance gains. We complement our benchmark with an in-depth analysis of feature representation. Our findings highlight the crucial role of data curation quality in advancing multimodal medical AI. We release Open-PMC, along with the trained models and our codebase.

arxiv情報

著者 Negin Baghbanzadeh,Adibvafa Fallahpour,Yasaman Parhizkar,Franklin Ogidi,Shuvendu Roy,Sajad Ashkezari,Vahid Reza Khazaie,Michael Colacci,Ali Etemad,Arash Afkanpour,Elham Dolatabadi
発行日 2025-03-18 16:10:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV | Advancing Medical Representation Learning Through High-Quality Data はコメントを受け付けていません

Impossible Videos

要約

最近の合成ビデオは、現実世界のビデオのデータ不足と多様性を補完するために広く使用されています。
現在の合成データセットは、主に現実世界のシナリオを複製し、不可能で反事実的で反現実的なビデオ概念を露出していないままにします。
この作業は、2つの質問に答えることを目的としています。1)今日のビデオ生成モデルは、プロンプトに効果的に従って不可能なビデオコンテンツを作成できますか?
2)今日のビデオ理解モデルは、不可能なビデオを理解するのに十分ですか?
この目的のために、ビデオの理解と生成の進歩を評価し、促進するために設計された新しいベンチマークであるIPVベンチを紹介します。
IPVベンチは、4つのドメイン、14のカテゴリを含む包括的な分類法によって支えられています。
物理的、生物学的、地理的、または社会的法則に反する多様なシーンを特徴としています。
分類に基づいて、ビデオ生成モデルを評価するためのプロンプトスイートが構築され、迅速なフォローと創造性の能力に挑戦します。
さらに、ビデオベンチマークがキュレーションされており、不可能なビデオを理解する能力に関するビデオllmsを評価します。これには、特に時間的ダイナミクスと世界の知識に関する推論が必要です。
包括的な評価により、ビデオモデルの将来の方向性の制限と洞察が明らかになり、次世代のビデオモデルへの道が開かれています。

要約(オリジナル)

Synthetic videos nowadays is widely used to complement data scarcity and diversity of real-world videos. Current synthetic datasets primarily replicate real-world scenarios, leaving impossible, counterfactual and anti-reality video concepts underexplored. This work aims to answer two questions: 1) Can today’s video generation models effectively follow prompts to create impossible video content? 2) Are today’s video understanding models good enough for understanding impossible videos? To this end, we introduce IPV-Bench, a novel benchmark designed to evaluate and foster progress in video understanding and generation. IPV-Bench is underpinned by a comprehensive taxonomy, encompassing 4 domains, 14 categories. It features diverse scenes that defy physical, biological, geographical, or social laws. Based on the taxonomy, a prompt suite is constructed to evaluate video generation models, challenging their prompt following and creativity capabilities. In addition, a video benchmark is curated to assess Video-LLMs on their ability of understanding impossible videos, which particularly requires reasoning on temporal dynamics and world knowledge. Comprehensive evaluations reveal limitations and insights for future directions of video models, paving the way for next-generation video models.

arxiv情報

著者 Zechen Bai,Hai Ci,Mike Zheng Shou
発行日 2025-03-18 16:10:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Impossible Videos はコメントを受け付けていません

OVTR: End-to-End Open-Vocabulary Multiple Object Tracking with Transformer

要約

オープンボキャブラリー複数のオブジェクトトラッキングは、トレーニング中にトラッカーを目に見えないカテゴリに一般化することを目的としており、さまざまな現実世界のシナリオでアプリケーションを可能にします。
ただし、既存のオープンボキャブラリートラッカーは、そのフレームワーク構造、分離されたフレームレベルの知覚、および不十分なモーダル相互作用によって制約されており、これにより、オープンポキュブの分類と追跡のパフォーマンスが妨げられます。
このホワイトペーパーでは、モーション、外観、カテゴリを同時にモデル化する最初のエンドツーエンドのオープンボキャブラリートラッカーであるOVTR(トランスを使用したエンドツーエンドのオープンボキャブラリーマルチオブジェクトトラッキング)を提案します。
安定した分類と継続的な追跡を実現するために、CIP(カテゴリ情報伝播)戦略を設計し、その後のフレームの複数の高レベルのカテゴリ情報事前を確立します。
さらに、一般化能力と深いマルチモーダル相互作用のためのデュアルブランチ構造を導入し、パフォーマンスを向上させるためにデコーダーに保護戦略を組み込みます。
実験結果は、私たちの方法では、オープンボキャブラリーMOTベンチマークで以前のトラッカーを上回り、推論速度が高速化し、前処理要件を大幅に削減することを示しています。
さらに、モデルを別のデータセットに転送する実験は、その強力な適応性を示しています。
モデルとコードはhttps://github.com/jinyanglii/ovtrでリリースされます。

要約(オリジナル)

Open-vocabulary multiple object tracking aims to generalize trackers to unseen categories during training, enabling their application across a variety of real-world scenarios. However, the existing open-vocabulary tracker is constrained by its framework structure, isolated frame-level perception, and insufficient modal interactions, which hinder its performance in open-vocabulary classification and tracking. In this paper, we propose OVTR (End-to-End Open-Vocabulary Multiple Object Tracking with TRansformer), the first end-to-end open-vocabulary tracker that models motion, appearance, and category simultaneously. To achieve stable classification and continuous tracking, we design the CIP (Category Information Propagation) strategy, which establishes multiple high-level category information priors for subsequent frames. Additionally, we introduce a dual-branch structure for generalization capability and deep multimodal interaction, and incorporate protective strategies in the decoder to enhance performance. Experimental results show that our method surpasses previous trackers on the open-vocabulary MOT benchmark while also achieving faster inference speeds and significantly reducing preprocessing requirements. Moreover, the experiment transferring the model to another dataset demonstrates its strong adaptability. Models and code are released at https://github.com/jinyanglii/OVTR.

arxiv情報

著者 Jinyang Li,En Yu,Sijia Chen,Wenbing Tao
発行日 2025-03-18 16:12:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | OVTR: End-to-End Open-Vocabulary Multiple Object Tracking with Transformer はコメントを受け付けていません

Weakly Supervised Spatial Implicit Neural Representation Learning for 3D MRI-Ultrasound Deformable Image Registration in HDR Prostate Brachytherapy

要約

目的:正確な3D MRI-Ultrasound(US)変形可能な登録は、高用量レート(HDR)前立腺黒化器療法のリアルタイムガイダンスに不可欠です。
モダリティの違いと骨盤解剖学の課題に対処するための、弱く監視された空間的暗黙の神経表現(SINR)方法を提示します。
方法:フレームワークは、密度の強度マッチングではなく、MRI/USセグメンテーションからのまばらな表面監督を使用します。
SINRモデルの変形は、患者固有の表面前であり、生物学的にもっともらしい変形のための静止速度フィールドを導きます。
検証には、サイコロ類似性係数(DSC)、平均表面距離(MSD)、および95%HAUSDORFF距離(HD95)を介して評価された、20の公共前立腺-RI-US生体症の症例と10の制度HDR症例が含まれていました。
結果:提案された方法は、堅牢な登録を達成しました。
パブリックデータセットの場合、前立腺DSCは0.93 \ PM 0.05 $、MSD $ 0.87 \ PM 0.10 $ mm、HD95 $ 1.58 \ PM 0.37 $ mmでした。
施設内データセットの場合、前立腺CTVはDSC $ 0.88 \ PM 0.09 $、MSD $ 1.21 \ PM 0.38 $ mm、およびHD95 $ 2.09 \ PM 1.48 $ mmを達成しました。
超音波の視野が限られているため、膀胱と直腸の性能は低かった。
視覚的評価により、最小限の矛盾を伴う正確なアライメントが確認されました。
結論:この研究では、3D MRI-US変形可能な登録のための新規の弱く監視されているSINRベースのアプローチを紹介します。
まばらな表面の監督と空間的事前を活用することにより、正確で堅牢で計算上の効率的な登録を実現し、HDR前立腺黒化器療法のリアルタイム画像ガイダンスを強化し、治療精度を改善します。

要約(オリジナル)

Purpose: Accurate 3D MRI-ultrasound (US) deformable registration is critical for real-time guidance in high-dose-rate (HDR) prostate brachytherapy. We present a weakly supervised spatial implicit neural representation (SINR) method to address modality differences and pelvic anatomy challenges. Methods: The framework uses sparse surface supervision from MRI/US segmentations instead of dense intensity matching. SINR models deformations as continuous spatial functions, with patient-specific surface priors guiding a stationary velocity field for biologically plausible deformations. Validation included 20 public Prostate-MRI-US-Biopsy cases and 10 institutional HDR cases, evaluated via Dice similarity coefficient (DSC), mean surface distance (MSD), and 95% Hausdorff distance (HD95). Results: The proposed method achieved robust registration. For the public dataset, prostate DSC was $0.93 \pm 0.05$, MSD $0.87 \pm 0.10$ mm, and HD95 $1.58 \pm 0.37$ mm. For the institutional dataset, prostate CTV achieved DSC $0.88 \pm 0.09$, MSD $1.21 \pm 0.38$ mm, and HD95 $2.09 \pm 1.48$ mm. Bladder and rectum performance was lower due to ultrasound’s limited field of view. Visual assessments confirmed accurate alignment with minimal discrepancies. Conclusion: This study introduces a novel weakly supervised SINR-based approach for 3D MRI-US deformable registration. By leveraging sparse surface supervision and spatial priors, it achieves accurate, robust, and computationally efficient registration, enhancing real-time image guidance in HDR prostate brachytherapy and improving treatment precision.

arxiv情報

著者 Jing Wang,Ruirui Liu,Yu Lei,Michael J. Baine,Tian Liu,Yang Lei
発行日 2025-03-18 16:30:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, physics.med-ph | Weakly Supervised Spatial Implicit Neural Representation Learning for 3D MRI-Ultrasound Deformable Image Registration in HDR Prostate Brachytherapy はコメントを受け付けていません

Diffusion-based Facial Aesthetics Enhancement with 3D Structure Guidance

要約

顔の美学強化(FAE)は、顔のイメージの構造と外観を調整しながら、可能な限りアイデンティティを維持することにより、顔の魅力を向上させることを目指しています。
ほとんどの既存の方法は、FAEを実施するために、生成モデル向けに深い機能ベースまたはスコアベースのガイダンスを採用しました。
これらの方法は有望な結果を達成しましたが、アイデンティティの一貫性が低いか、顔の魅力が不十分であるため、過度に美化された結果が生成される可能性があります。
アイデンティティの喪失が少ない顔面美学を強化するために、3D構造ガイダンスで2Dフェイシャルイメージを美化する拡散ベースのFAEメソッドである拡散(NNSG拡散)に基づいた最近隣接構造ガイダンスを提案します。
具体的には、近隣の参照面からFAEガイダンスを抽出することを提案します。
FAEプロセスでの顔の構造の変化を減らすために、3Dフェイスモデルは、一致した2D参照フェイスと2D入力フェースの両方を参照して回復し、3Dフェイスモデルから深さと輪郭のガイダンスを抽出できます。
その後、深さと輪郭の手がかりは、FAEのコントロールネットを使用した安定した拡散に対する効果的なガイダンスを提供できます。
広範な実験は、私たちの方法が、顔のアイデンティティを維持しながら、顔の美学を強化する際の以前の関連する方法よりも優れていることを示しています。

要約(オリジナル)

Facial Aesthetics Enhancement (FAE) aims to improve facial attractiveness by adjusting the structure and appearance of a facial image while preserving its identity as much as possible. Most existing methods adopted deep feature-based or score-based guidance for generation models to conduct FAE. Although these methods achieved promising results, they potentially produced excessively beautified results with lower identity consistency or insufficiently improved facial attractiveness. To enhance facial aesthetics with less loss of identity, we propose the Nearest Neighbor Structure Guidance based on Diffusion (NNSG-Diffusion), a diffusion-based FAE method that beautifies a 2D facial image with 3D structure guidance. Specifically, we propose to extract FAE guidance from a nearest neighbor reference face. To allow for less change of facial structures in the FAE process, a 3D face model is recovered by referring to both the matched 2D reference face and the 2D input face, so that the depth and contour guidance can be extracted from the 3D face model. Then the depth and contour clues can provide effective guidance to Stable Diffusion with ControlNet for FAE. Extensive experiments demonstrate that our method is superior to previous relevant methods in enhancing facial aesthetics while preserving facial identity.

arxiv情報

著者 Lisha Li,Jingwen Hou,Weide Liu,Yuming Fang,Jiebin Yan
発行日 2025-03-18 16:42:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Diffusion-based Facial Aesthetics Enhancement with 3D Structure Guidance はコメントを受け付けていません