X-Diffusion: Generating Detailed 3D MRI Volumes From a Single Image Using Cross-Sectional Diffusion Models

要約

磁気共鳴イメージング(MRI)は重要な診断ツールですが、高解像度スキャンは、広範なデータ収集要件のために遅くて高価なことがよくあります。
従来のMRI再構成方法は、Kスペースで欠落している周波数コンポーネントを埋め、完全な3Dスキャンを必要とする3Dツー3D再構成を実行することにより、このプロセスを促進することを目的としています。
対照的に、非常にまばらな空間ドメイン入力から詳細な3D MRIボリュームを再構築する新しい断面拡散モデルであるX-diffusionを導入し、単一の2D MRIスライスまたは少数のスライスから2D-3D再構成を達成します。
X拡散の重要な側面は、MRIスキャンを標準平面(冠状、軸、矢状)の2Dスライスのコレクションとして扱う以前の学習アプローチとは異なり、断面トレーニングと推論中にMRIデータを断面トレーニングおよび推論中にホリスティックな3Dボリュームとしてモデル化することです。
Bratsデータセットの脳腫瘍MRIのX拡散と、英国Biobankデータセットの全身MRIを評価しました。
我々の結果は、X拡散が目に見えないデータの定量精度(PSNR)の最先端の方法を上回るだけでなく、腫瘍プロファイル、脊椎の湾曲、脳の体積などの重要な解剖学的特徴を維持することを示しています。
驚くべきことに、このモデルはトレーニングドメインを超えて一般化し、脳データのみでトレーニングされているにもかかわらず、膝MRIの再構築に成功します。
医療専門家の評価により、生成された画像の臨床的関連性と忠実度がさらに確認されます。X-diffusionは、非常に限られた2D入力データから詳細な3D MRIを生成できる最初の方法であり、MRIの獲得を加速し、関連するコストを削減する可能性があります。
このコードは、プロジェクトWebサイトhttps://emmanuelleb985.github.io/xdiffusion/で入手できます。

要約(オリジナル)

Magnetic Resonance Imaging (MRI) is a crucial diagnostic tool, but high-resolution scans are often slow and expensive due to extensive data acquisition requirements. Traditional MRI reconstruction methods aim to expedite this process by filling in missing frequency components in the K-space, performing 3D-to-3D reconstructions that demand full 3D scans. In contrast, we introduce X-Diffusion, a novel cross-sectional diffusion model that reconstructs detailed 3D MRI volumes from extremely sparse spatial-domain inputs, achieving 2D-to-3D reconstruction from as little as a single 2D MRI slice or few slices. A key aspect of X-Diffusion is that it models MRI data as holistic 3D volumes during the cross-sectional training and inference, unlike previous learning approaches that treat MRI scans as collections of 2D slices in standard planes (coronal, axial, sagittal). We evaluated X-Diffusion on brain tumor MRIs from the BRATS dataset and full-body MRIs from the UK Biobank dataset. Our results demonstrate that X-Diffusion not only surpasses state-of-the-art methods in quantitative accuracy (PSNR) on unseen data but also preserves critical anatomical features such as tumor profiles, spine curvature, and brain volume. Remarkably, the model generalizes beyond the training domain, successfully reconstructing knee MRIs despite being trained exclusively on brain data. Medical expert evaluations further confirm the clinical relevance and fidelity of the generated images.To our knowledge, X-Diffusion is the first method capable of producing detailed 3D MRIs from highly limited 2D input data, potentially accelerating MRI acquisition and reducing associated costs. The code is available on the project website https://emmanuelleb985.github.io/XDiffusion/ .

arxiv情報

著者 Emmanuelle Bourigault,Abdullah Hamdi,Amir Jamaludin
発行日 2025-02-12 13:46:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | X-Diffusion: Generating Detailed 3D MRI Volumes From a Single Image Using Cross-Sectional Diffusion Models はコメントを受け付けていません

Handwritten Text Recognition: A Survey

要約

手書きのテキスト認識(HTR)は、パターン認識と機械学習の中で重要な分野になりました。アプリケーションは、最新のデータ入力とアクセシビリティソリューションに歴史的な文書の保存にまたがっています。
HTRの複雑さは、手書きの高い変動性にあり、これにより、堅牢な認識システムを開発することが困難になります。
この調査では、HTRモデルの進化を調べ、初期のヒューリスティックベースのアプローチから、深い学習技術を活用する現代の最先端のニューラルモデルへの進行を追跡します。
フィールドの範囲も拡張されており、最初は最近のエンドツーエンドのドキュメントレベルのアプローチに進行する単語レベルのコンテンツのみを認識することができました。
私たちの論文は、既存の作業を2つの主要レベルの認識に分類します:(1)\ emph {up to Line-level}、単語とラインの認識を含み、(2)\ emph {beyond level}、パラグラフとドキュメントに対処します –
レベルの課題。
研究方法論、ベンチマークの最近の進歩、フィールドの主要なデータセット、および文献で報告された結果の議論を調べる統一されたフレームワークを提供します。
最後に、私たちは、研究者と実践者にフィールドを進めるためのロードマップを装備することを目指して、迫りつつある研究の課題を特定し、将来の方向性を有望で概説します。

要約(オリジナル)

Handwritten Text Recognition (HTR) has become an essential field within pattern recognition and machine learning, with applications spanning historical document preservation to modern data entry and accessibility solutions. The complexity of HTR lies in the high variability of handwriting, which makes it challenging to develop robust recognition systems. This survey examines the evolution of HTR models, tracing their progression from early heuristic-based approaches to contemporary state-of-the-art neural models, which leverage deep learning techniques. The scope of the field has also expanded, with models initially capable of recognizing only word-level content progressing to recent end-to-end document-level approaches. Our paper categorizes existing work into two primary levels of recognition: (1) \emph{up to line-level}, encompassing word and line recognition, and (2) \emph{beyond line-level}, addressing paragraph- and document-level challenges. We provide a unified framework that examines research methodologies, recent advances in benchmarking, key datasets in the field, and a discussion of the results reported in the literature. Finally, we identify pressing research challenges and outline promising future directions, aiming to equip researchers and practitioners with a roadmap for advancing the field.

arxiv情報

著者 Carlos Garrido-Munoz,Antonio Rios-Vila,Jorge Calvo-Zaragoza
発行日 2025-02-12 13:59:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Handwritten Text Recognition: A Survey はコメントを受け付けていません

Vision Transformer for Classification of Breast Ultrasound Images

要約

医療超音波(米国)イメージングは​​、使いやすさ、低コスト、安​​全性により、乳がんイメージングの顕著なモダリティになりました。
過去10年間で、畳み込みアプリケーションの選択方法として畳み込みニューラルネットワーク(CNNS)が登場し、US画像の自動分類において優れた可能性を示してきました。
彼らの成功にもかかわらず、彼らの制限されたローカル受容フィールドは、グローバルなコンテキスト情報を学習する能力を制限します。
最近、画像パッチ間の自己関節に基づいたVision Transformer(VIT)設計は、CNNSの代替品である可能性があることを示しています。
この研究では、初めて、VITを利用して、さまざまな増強戦略を使用して乳房米国の画像を分類します。
結果は、分類精度と曲線下面積(AUC)メトリックとして提供され、パフォーマンスは最先端のCNNと比較されます。
結果は、VITモデルが米国の乳房画像の分類においてCNNと同等の効率性またはさらに優れていることを示しています。

要約(オリジナル)

Medical ultrasound (US) imaging has become a prominent modality for breast cancer imaging due to its ease-of-use, low-cost and safety. In the past decade, convolutional neural networks (CNNs) have emerged as the method of choice in vision applications and have shown excellent potential in automatic classification of US images. Despite their success, their restricted local receptive field limits their ability to learn global context information. Recently, Vision Transformer (ViT) designs that are based on self-attention between image patches have shown great potential to be an alternative to CNNs. In this study, for the first time, we utilize ViT to classify breast US images using different augmentation strategies. The results are provided as classification accuracy and Area Under the Curve (AUC) metrics, and the performance is compared with the state-of-the-art CNNs. The results indicate that the ViT models have comparable efficiency with or even better than the CNNs in classification of US breast images.

arxiv情報

著者 Behnaz Gheflati,Hassan Rivaz
発行日 2025-02-12 14:06:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Vision Transformer for Classification of Breast Ultrasound Images はコメントを受け付けていません

Composite Sketch+Text Queries for Retrieving Objects with Elusive Names and Complex Interactions

要約

限られた語彙を持つ非ネイティブスピーカーは、それらを視覚化することができたにもかかわらず、特定のオブジェクトを名前を付けるのに苦労しています。
さらに、ユーザーは、地面を掘る麻痺しているもの、たとえば、スケッチが困難な相互作用を備えたこのようなとらえどころのないオブジェクトを検索したい場合があります。
このような一般的で複雑な状況では、ユーザーは、名前が困難であるが描画しやすいオブジェクトの手描きのスケッチと、スケッチが困難であるが簡単なオブジェクトを説明するテキストを含む複合マルチモーダルクエリを受け入れる検索インターフェイスを希望します。
シーンとの属性または相互作用。
この新しい問題ステートメントは、以前によく研究されていたTBIR(テキストベースの画像検索)およびSBIR(スケッチベースの画像検索)の問題とはっきりと異なります。
この経験不足のタスクを研究するために、データセット、CSTBIR(Composite Sketch+Textベースの画像検索)をキュレートします。
2mクエリと108kの自然シーン画像。
さらに、この問題の解決策として、手描きのスケッチを使用して自然なシーンイメージに関連するオブジェクトをローカライズし、テキストと画像をエンコードする、この問題の解決策として、前提条件のマルチモーダルトランスベースのベースライン(Sketch+Text Network)を提案します。
画像検索を実行します。
対照学習に加えて、モデルのパフォーマンスを改善する複数のトレーニング目標を提案します。
広範な実験では、提案された方法が、テキストのみ、スケッチのみ、および複合クエリのモダリティのためのいくつかの最先端の検索方法よりも優れていることが示されています。
データセットとコードをプロジェクトWebサイトで利用できるようにします。

要約(オリジナル)

Non-native speakers with limited vocabulary often struggle to name specific objects despite being able to visualize them, e.g., people outside Australia searching for numbats. Further, users may want to search for such elusive objects with difficult-to-sketch interactions, e.g., numbat digging in the ground. In such common but complex situations, users desire a search interface that accepts composite multimodal queries comprising hand-drawn sketches of difficult-to-name but easy-to-draw objects and text describing difficult-to-sketch but easy-to-verbalize object attributes or interaction with the scene. This novel problem statement distinctly differs from the previously well-researched TBIR (text-based image retrieval) and SBIR (sketch-based image retrieval) problems. To study this under-explored task, we curate a dataset, CSTBIR (Composite Sketch+Text Based Image Retrieval), consisting of approx. 2M queries and 108K natural scene images. Further, as a solution to this problem, we propose a pretrained multimodal transformer-based baseline, STNET (Sketch+Text Network), that uses a hand-drawn sketch to localize relevant objects in the natural scene image, and encodes the text and image to perform image retrieval. In addition to contrastive learning, we propose multiple training objectives that improve the performance of our model. Extensive experiments show that our proposed method outperforms several state-of-the-art retrieval methods for text-only, sketch-only, and composite query modalities. We make the dataset and code available at our project website.

arxiv情報

著者 Prajwal Gatti,Kshitij Parikh,Dhriti Prasanna Paul,Manish Gupta,Anand Mishra
発行日 2025-02-12 14:22:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.IR, cs.MM | Composite Sketch+Text Queries for Retrieving Objects with Elusive Names and Complex Interactions はコメントを受け付けていません

Survey on AI-Generated Media Detection: From Non-MLLM to MLLM

要約

AIに生成されたメディアの急増は、情報の信頼性と社会的信頼に大きな課題をもたらし、信頼できる検出方法を非常に要求します。
AIに生成された培地を検出する方法は、マルチモーダル大手言語モデル(MLLM)の進歩と並行して、急速に進化しました。
現在の検出アプローチは、非MLLMベースとMLLMベースのメソッドの2つの主要なグループに分類できます。
前者は、深い学習技術を搭載した高精度のドメイン固有の検出器を採用していますが、後者は、信頼性の検証、説明可能性、ローカリゼーション機能を統合するMLLMSに基づく汎用検出器を利用します。
この分野では大きな進歩にもかかわらず、ドメイン固有から汎用検出方法への移行を調べる包括的な調査に関する文献にはギャップが残っています。
このペーパーでは、両方のアプローチの系統的レビューを提供し、シングルモーダルとマルチモーダルの視点から分析することにより、このギャップに対処します。
これらのカテゴリの詳細な比較分析を提示し、それらの方法論的な類似点と相違点を調べます。
この分析を通じて、潜在的なハイブリッドアプローチを調査し、偽造検出における重要な課題を特定し、将来の研究の方向性を提供します。
さらに、MLLMが検出タスクでますます一般的になるにつれて、倫理的およびセキュリティ上の考慮事項が重要な世界的な懸念として浮上しています。
私たちは、さまざまな管轄区域にわたって生成AI(Genai)を取り巻く規制環境を調べ、この分野の研究者と実践者に貴重な洞察を提供します。

要約(オリジナル)

The proliferation of AI-generated media poses significant challenges to information authenticity and social trust, making reliable detection methods highly demanded. Methods for detecting AI-generated media have evolved rapidly, paralleling the advancement of Multimodal Large Language Models (MLLMs). Current detection approaches can be categorized into two main groups: Non-MLLM-based and MLLM-based methods. The former employs high-precision, domain-specific detectors powered by deep learning techniques, while the latter utilizes general-purpose detectors based on MLLMs that integrate authenticity verification, explainability, and localization capabilities. Despite significant progress in this field, there remains a gap in literature regarding a comprehensive survey that examines the transition from domain-specific to general-purpose detection methods. This paper addresses this gap by providing a systematic review of both approaches, analyzing them from single-modal and multi-modal perspectives. We present a detailed comparative analysis of these categories, examining their methodological similarities and differences. Through this analysis, we explore potential hybrid approaches and identify key challenges in forgery detection, providing direction for future research. Additionally, as MLLMs become increasingly prevalent in detection tasks, ethical and security considerations have emerged as critical global concerns. We examine the regulatory landscape surrounding Generative AI (GenAI) across various jurisdictions, offering valuable insights for researchers and practitioners in this field.

arxiv情報

著者 Yueying Zou,Peipei Li,Zekun Li,Huaibo Huang,Xing Cui,Xuannan Liu,Chenghanyu Zhang,Ran He
発行日 2025-02-12 14:43:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Survey on AI-Generated Media Detection: From Non-MLLM to MLLM はコメントを受け付けていません

mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data

要約

マルチモーダル埋め込みモデルは、テキストや画像などのさまざまなモダリティからデータを統一された表現空間にマッピングする能力に大きな注目を集めています。
ただし、限られたラベル付きマルチモーダルデータは、しばしば埋め込み性能を妨げます。
最近のアプローチでは、この問題に対処するためにデータ統合を活用していますが、合成データの品質は重要なボトルネックのままです。
この作業では、高品質の合成マルチモーダルデータの3つの基準を特定します。
まず、幅広い範囲により、生成されたデータが多様なタスクとモダリティをカバーし、さまざまなダウンストリームシナリオに適用できるようになります。
第二に、堅牢なクロスモーダルアライメントにより、異なるモダリティがセマンティブに一貫性があります。
第三に、高い忠実度は、合成データがその信頼性を高めるために現実的な詳細を維持することを保証します。
これらの原則に導かれて、次のデータセットを合成します。(1)幅広いタスク、モダリティの組み合わせ、言語をカバーします。
)現実世界の画像を正確で関連するテキストで組み込み、自己評価と改良により忠実度を確保します。
これらの高品質の合成および標識データセットを活用して、マルチモーダル多言語E5モデルMME5をトレーニングします。
広範な実験は、MME5がMMEBベンチマークで最先端のパフォーマンスを達成し、XTDベンチマークで優れた多言語パフォーマンスを達成することを示しています。
コード、データセット、モデルはhttps://github.com/haon-chen/mme5でリリースされています。

要約(オリジナル)

Multimodal embedding models have gained significant attention for their ability to map data from different modalities, such as text and images, into a unified representation space. However, the limited labeled multimodal data often hinders embedding performance. Recent approaches have leveraged data synthesis to address this problem, yet the quality of synthetic data remains a critical bottleneck. In this work, we identify three criteria for high-quality synthetic multimodal data. First, broad scope ensures that the generated data covers diverse tasks and modalities, making it applicable to various downstream scenarios. Second, robust cross-modal alignment makes different modalities semantically consistent. Third, high fidelity ensures that the synthetic data maintains realistic details to enhance its reliability. Guided by these principles, we synthesize datasets that: (1) cover a wide range of tasks, modality combinations, and languages, (2) are generated via a deep thinking process within a single pass of a multimodal large language model, and (3) incorporate real-world images with accurate and relevant texts, ensuring fidelity through self-evaluation and refinement. Leveraging these high-quality synthetic and labeled datasets, we train a multimodal multilingual E5 model mmE5. Extensive experiments demonstrate that mmE5 achieves state-of-the-art performance on the MMEB Benchmark and superior multilingual performance on the XTD benchmark. Our codes, datasets and models are released in https://github.com/haon-chen/mmE5.

arxiv情報

著者 Haonan Chen,Liang Wang,Nan Yang,Yutao Zhu,Ziliang Zhao,Furu Wei,Zhicheng Dou
発行日 2025-02-12 15:03:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data はコメントを受け付けていません

Referring Remote Sensing Image Segmentation via Bidirectional Alignment Guided Joint Prediction

要約

リモートセンシング画像セグメンテーション(RRSIS)を参照することは、生態学的監視、都市計画、災害管理に不可欠であり、テキストの説明によって導かれるリモートセンシング画像でのオブジェクトの正確なセグメンテーションを必要とします。
このタスクは、多様なカテゴリと小さなターゲットを備えたリモートセンシング画像の高い空間分解能と幅広いカバレッジ、およびぼやけたエッジを持つクラスター化された不明確なターゲットの存在により、かなりのビジョン言語ギャップ、高い空間分解能と幅広いカバレッジのために、ユニークな挑戦です。
これらの問題に取り組むために、ビジョン言語のギャップを埋め、マルチスケールの特徴の相互作用を強化し、微調整されたオブジェクトの分化を改善するために設計された新しいフレームワークである\ Oursを提案します。
具体的には、\私たちは以下を紹介します。(1)改善された視覚言語特徴アライメントのための双方向空間相関(BSC)、(2)ターゲットバックグラウンドのTwinstreamデコーダー(T-BTD)は、ターゲットと非ターゲットを正確に区別するための、および(
3)堅牢なマルチモーダル機能の再構築のためのデュアルモーダルオブジェクト学習戦略(D-MOLS)。
ベンチマークデータセットでの広範な実験refsegrsおよびrrsis-dは、\我々が最先端のパフォーマンスを達成することを示しています。
具体的には、2つのデータセットでそれぞれ全体のIou(OIOU)を3.76パーセントポイント(80.57)および1.44パーセントポイント(79.23)に改善します。
さらに、平均IOU(MIOU)の以前の方法(67.95)および1.84パーセントポイント(66.04)よりも優れており、RRSIのコア課題に正確さと堅牢性を高めて効果的に対処します。

要約(オリジナル)

Referring Remote Sensing Image Segmentation (RRSIS) is critical for ecological monitoring, urban planning, and disaster management, requiring precise segmentation of objects in remote sensing imagery guided by textual descriptions. This task is uniquely challenging due to the considerable vision-language gap, the high spatial resolution and broad coverage of remote sensing imagery with diverse categories and small targets, and the presence of clustered, unclear targets with blurred edges. To tackle these issues, we propose \ours, a novel framework designed to bridge the vision-language gap, enhance multi-scale feature interaction, and improve fine-grained object differentiation. Specifically, \ours introduces: (1) the Bidirectional Spatial Correlation (BSC) for improved vision-language feature alignment, (2) the Target-Background TwinStream Decoder (T-BTD) for precise distinction between targets and non-targets, and (3) the Dual-Modal Object Learning Strategy (D-MOLS) for robust multimodal feature reconstruction. Extensive experiments on the benchmark datasets RefSegRS and RRSIS-D demonstrate that \ours achieves state-of-the-art performance. Specifically, \ours improves the overall IoU (oIoU) by 3.76 percentage points (80.57) and 1.44 percentage points (79.23) on the two datasets, respectively. Additionally, it outperforms previous methods in the mean IoU (mIoU) by 5.37 percentage points (67.95) and 1.84 percentage points (66.04), effectively addressing the core challenges of RRSIS with enhanced precision and robustness.

arxiv情報

著者 Tianxiang Zhang,Zhaokun Wen,Bo Kong,Kecheng Liu,Yisi Zhang,Peixian Zhuang,Jiangyun Li
発行日 2025-02-12 15:21:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Referring Remote Sensing Image Segmentation via Bidirectional Alignment Guided Joint Prediction はコメントを受け付けていません

Surface Vision Mamba: Leveraging Bidirectional State Space Model for Efficient Spherical Manifold Representation

要約

注意ベースの方法は、従来の幾何学的深部学習(GDL)モデルを上回り、球状の皮質表面の長距離依存性をモデル化する際の例外的なパフォーマンスを実証しています。
ただし、それらの広範な推論時間と高いメモリは、限られたコンピューティングリソースを備えた大規模なデータセットへのアプリケーションの課題をもたらします。
コンピュータービジョンの状態空間モデルに触発されて、球状の表面に注意を払わないビジョンマンバ(VIM)を紹介し、球状マニホールドに関するデータを分析するためのドメインに依存しないアーキテクチャを提示します。
私たちの方法は、細分化されたicoSphereから導出された三角形のパッチのシーケンスとして球形データを表現することにより、表面のパッチを実現します。
提案された表面視力マンバ(SIM)は、新生児脳からの皮質表面指標を使用して、複数の神経発達表現型回帰タスクで評価されます。
実験結果は、SIMが注意とGDLベースの両方の方法を上回ることを示しており、ICO-4グリッドパーティションの下での表面視力変圧器(SIT)と比較して、4.8倍の推論を4.8倍も提供し、91.7%のメモリ消費量を達成します。
感度分析は、SIMが微妙な認知発達パターンを特定する可能性をさらに強調しています。
このコードは、https://github.com/rongzhao-he/surface-vision-mambaで入手できます。

要約(オリジナル)

Attention-based methods have demonstrated exceptional performance in modelling long-range dependencies on spherical cortical surfaces, surpassing traditional Geometric Deep Learning (GDL) models. However, their extensive inference time and high memory demands pose challenges for application to large datasets with limited computing resources. Inspired by the state space model in computer vision, we introduce the attention-free Vision Mamba (Vim) to spherical surfaces, presenting a domain-agnostic architecture for analyzing data on spherical manifolds. Our method achieves surface patching by representing spherical data as a sequence of triangular patches derived from a subdivided icosphere. The proposed Surface Vision Mamba (SiM) is evaluated on multiple neurodevelopmental phenotype regression tasks using cortical surface metrics from neonatal brains. Experimental results demonstrate that SiM outperforms both attention- and GDL-based methods, delivering 4.8 times faster inference and achieving 91.7% lower memory consumption compared to the Surface Vision Transformer (SiT) under the Ico-4 grid partitioning. Sensitivity analysis further underscores the potential of SiM to identify subtle cognitive developmental patterns. The code is available at https://github.com/Rongzhao-He/surface-vision-mamba.

arxiv情報

著者 Rongzhao He,Weihao Zheng,Leilei Zhao,Ying Wang,Dalin Zhu,Dan Wu,Bin Hu
発行日 2025-02-12 15:37:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Surface Vision Mamba: Leveraging Bidirectional State Space Model for Efficient Spherical Manifold Representation はコメントを受け付けていません

BCDDM: Branch-Corrected Denoising Diffusion Model for Black Hole Image Generation

要約

ブラックホールと降着フローの特性は、イベントHorizo​​n望遠鏡(EHT)データをフィッティングすることで推測できます。
ただし、GRRTの計算集中性のため、特定の放射フラックス画像を生成する効率を改善する必要があります。
このホワイトペーパーでは、分岐補正メカニズムと加重混合損失関数を使用して、放射的に非効率的な降着流(RIAF)モデルの7つの物理パラメーターに基づく生成ブラックホール画像の精度を改善する分岐補正拡散モデル(BCDDM)を紹介します。
私たちの実験は、生成された画像とその物理的パラメーターとの間に強い相関関係を示しています。
BCDDM生成画像でGRRTデータセットを強化し、パラメーター回帰にResNet50を使用することにより、パラメーター予測パフォーマンスの大幅な改善を実現します。
このアプローチは、計算コストを削減し、データセットの拡張、パラメーターの推定、およびモデルフィッティングのためのより速く、より効率的な方法を提供します。

要約(オリジナル)

The properties of black holes and accretion flows can be inferred by fitting Event Horizon Telescope (EHT) data to simulated images generated through general relativistic ray tracing (GRRT). However, due to the computationally intensive nature of GRRT, the efficiency of generating specific radiation flux images needs to be improved. This paper introduces the Branch Correction Denoising Diffusion Model (BCDDM), which uses a branch correction mechanism and a weighted mixed loss function to improve the accuracy of generated black hole images based on seven physical parameters of the radiatively inefficient accretion flow (RIAF) model. Our experiments show a strong correlation between the generated images and their physical parameters. By enhancing the GRRT dataset with BCDDM-generated images and using ResNet50 for parameter regression, we achieve significant improvements in parameter prediction performance. This approach reduces computational costs and provides a faster, more efficient method for dataset expansion, parameter estimation, and model fitting.

arxiv情報

著者 Ao liu,Zelin Zhang,Songbai Chen,Cuihong Wen
発行日 2025-02-12 16:05:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: astro-ph.GA, cs.CV | BCDDM: Branch-Corrected Denoising Diffusion Model for Black Hole Image Generation はコメントを受け付けていません

Annealed Winner-Takes-All for Motion Forecasting

要約

自律運転では、モーション予測は、近くのエージェントの将来の軌跡を予測することを目的としており、エゴ車両が行動を予測し、安全に運転するのを支援します。
重要な課題は、多様な将来の予測セットを生成することです。これは、多重選択学習(MCL)アーキテクチャと勝者のテイク(WTA)トレーニング目標を備えたデータ駆動型モデルを使用して一般的に対処されます。
ただし、これらの方法は、初期化の感度とトレーニングの不安定性に直面しています。
さらに、限られたパフォーマンスを補うために、いくつかのアプローチは、予測の数を大幅に削減するために、推論中に選択後のステップを必要とする大規模な仮説を使用したトレーニングに依存しています。
これらの問題に取り組むために、アニールされたMCLからインスピレーションを得ることができます。これは、アニールされた勝者のすべての損失(AWTA)を通じてMCLメソッドの収束特性を改善する最近導入された手法です。
この論文では、最小限の仮説のセットのみを使用してパフォーマンスを強化するために、AWTA損失を最先端のモーション予測モデルと統合する方法を示し、面倒な選択後のステップの必要性を排除します。
私たちのアプローチは、WTAを使用して通常トレーニングされる軌道予測モデルに簡単に組み込むことができ、大幅な改善をもたらします。
将来のモーション予測モデルへのアプローチの適用を容易にするために、コードは公開されています:https://github.com/valeoai/mf_awta。

要約(オリジナル)

In autonomous driving, motion prediction aims at forecasting the future trajectories of nearby agents, helping the ego vehicle to anticipate behaviors and drive safely. A key challenge is generating a diverse set of future predictions, commonly addressed using data-driven models with Multiple Choice Learning (MCL) architectures and Winner-Takes-All (WTA) training objectives. However, these methods face initialization sensitivity and training instabilities. Additionally, to compensate for limited performance, some approaches rely on training with a large set of hypotheses, requiring a post-selection step during inference to significantly reduce the number of predictions. To tackle these issues, we take inspiration from annealed MCL, a recently introduced technique that improves the convergence properties of MCL methods through an annealed Winner-Takes-All loss (aWTA). In this paper, we demonstrate how the aWTA loss can be integrated with state-of-the-art motion forecasting models to enhance their performance using only a minimal set of hypotheses, eliminating the need for the cumbersome post-selection step. Our approach can be easily incorporated into any trajectory prediction model normally trained using WTA and yields significant improvements. To facilitate the application of our approach to future motion forecasting models, the code is made publicly available: https://github.com/valeoai/MF_aWTA.

arxiv情報

著者 Yihong Xu,Victor Letzelter,Mickaël Chen,Éloi Zablocki,Matthieu Cord
発行日 2025-02-12 16:23:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Annealed Winner-Takes-All for Motion Forecasting はコメントを受け付けていません