Brain Latent Progression: Individual-based Spatiotemporal Disease Progression on 3D Brain MRIs via Latent Diffusion

要約

縦方向の磁気共鳴イメージング(MRI)データセットの利用可能性の増加により、人工知能(AI)駆動疾患のモデリングが促進され、個々の患者の将来の医療スキャンを予測できるようになりました。
ただし、AIの大幅な進歩にもかかわらず、現在の方法は、患者固有の個別化の達成、空間的一貫性の確保、縦断的データの効率的な利用、3Dスキャンの実質的なメモリ需要の管理などの課題に直面し続けています。
これらの課題に対処するために、3D脳MRIの個人レベルの疾患の進行を予測するために設計された新規の時空モデルである脳潜在進行(BRLP)を提案します。
BRLPの重要な貢献は4倍です。(i)小さな潜在スペースで動作し、高次元イメージングデータによってもたらされる計算上の課題を軽減します。
(ii)主題メタデータを明示的に統合して、予測の個別化を強化します。
(iii)補助モデルを介して疾患のダイナミクスの事前知識を組み込み、縦断的データの統合を促進します。
(iv)潜在的な平均安定化(LAS)アルゴリズムを導入します。これは、(a)推論時に予測される進行における時空間的一貫性を強化し、(b)予測の不確実性の尺度を導き出すことができます。
2,805人の被験者から11,730 T1強調(T1W)脳MRIでBRLPをトレーニングおよび評価し、962人の被験者から2,257 MRIを含む外部テストセットでその一般化可能性を検証します。
私たちの実験は、BRLP生成されたMRIスキャンを実際のフォローアップMRIと比較し、既存の方法と比較して最先端の精度を示しています。
このコードは、https://github.com/lemuelpuglisi/brlpで公開されています。

要約(オリジナル)

The growing availability of longitudinal Magnetic Resonance Imaging (MRI) datasets has facilitated Artificial Intelligence (AI)-driven modeling of disease progression, making it possible to predict future medical scans for individual patients. However, despite significant advancements in AI, current methods continue to face challenges including achieving patient-specific individualization, ensuring spatiotemporal consistency, efficiently utilizing longitudinal data, and managing the substantial memory demands of 3D scans. To address these challenges, we propose Brain Latent Progression (BrLP), a novel spatiotemporal model designed to predict individual-level disease progression in 3D brain MRIs. The key contributions in BrLP are fourfold: (i) it operates in a small latent space, mitigating the computational challenges posed by high-dimensional imaging data; (ii) it explicitly integrates subject metadata to enhance the individualization of predictions; (iii) it incorporates prior knowledge of disease dynamics through an auxiliary model, facilitating the integration of longitudinal data; and (iv) it introduces the Latent Average Stabilization (LAS) algorithm, which (a) enforces spatiotemporal consistency in the predicted progression at inference time and (b) allows us to derive a measure of the uncertainty for the prediction. We train and evaluate BrLP on 11,730 T1-weighted (T1w) brain MRIs from 2,805 subjects and validate its generalizability on an external test set comprising 2,257 MRIs from 962 subjects. Our experiments compare BrLP-generated MRI scans with real follow-up MRIs, demonstrating state-of-the-art accuracy compared to existing methods. The code is publicly available at: https://github.com/LemuelPuglisi/BrLP.

arxiv情報

著者 Lemuel Puglisi,Daniel C. Alexander,Daniele Ravì
発行日 2025-02-12 16:47:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Brain Latent Progression: Individual-based Spatiotemporal Disease Progression on 3D Brain MRIs via Latent Diffusion はコメントを受け付けていません

AR Glulam: Accurate Augmented Reality Using Multiple Fiducial Markers for Glulam Fabrication

要約

拡張現実(AR)における最近の進歩は、建築、設計、および製造におけるアプリケーションを実証しています。
従来の2D構造図面と比較して、ARを使用して、コンテキスト命令を重ね、3D空間情報を表示し、オンサイトエンゲージメントを有効にします。
ARの可能性にもかかわらず、業界での技術の広範な採用は、その精度によって制限されています。
精度は、厳格な建設許容度、設計の忠実度、製造フィードバックを必要とするプロジェクトにとって重要です。
たとえば、Glumamビームの製造には、2mm未満の許容範囲が必要です。
このプロジェクトの目標は、高精度AR製造に複数の基準マーカーを使用する産業用途を調査することです。
この方法は、0.97の精度でラボ設定で検証されていますが、このペーパーでは、業界のメーカーであるUnalam Factoryとの工場環境でGlumam Beamを製造することに焦点を当てています。

要約(オリジナル)

Recent advancements in Augmented Reality (AR) have demonstrated applications in architecture, design, and fabrication. Compared to conventional 2D construction drawings, AR can be used to superimpose contextual instructions, display 3D spatial information and enable on-site engagement. Despite the potential of AR, the widespread adoption of the technology in the industry is limited by its precision. Precision is important for projects requiring strict construction tolerances, design fidelity, and fabrication feedback. For example, the manufacturing of glulam beams requires tolerances of less than 2mm. The goal of this project is to explore the industrial application of using multiple fiducial markers for high-precision AR fabrication. While the method has been validated in lab settings with a precision of 0.97, this paper focuses on fabricating glulam beams in a factory setting with an industry manufacturer, Unalam Factory.

arxiv情報

著者 Alexander Htet Kyaw,Arvin Xu,Sasa Zivkovic,Gwyllim Jahn,Cameron Newnham,Nick Van Den Berg
発行日 2025-02-12 16:56:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.ET, cs.HC | AR Glulam: Accurate Augmented Reality Using Multiple Fiducial Markers for Glulam Fabrication はコメントを受け付けていません

A Novel Approach to for Multimodal Emotion Recognition : Multimodal semantic information fusion

要約

人工知能とコンピュータービジョンテクノロジーの進歩により、マルチモーダル感情認識が顕著な研究トピックになりました。
ただし、既存の方法は、不均一なデータ融合やモダリティ相関の効果的な利用などの課題に直面しています。
このペーパーでは、対照的な学習と視覚シーケンス圧縮の統合に基づいて、新しいマルチモーダル感情認識アプローチ、Deepmsi-Merを提案します。
提案された方法は、対照的な学習を通じてクロスモーダルの特徴の融合を強化し、視覚シーケンス圧縮を活用することにより、視覚モダリティの冗長性を減らします。
IEMOCAPとMELDの2つのパブリックデータセットでの実験結果は、DeepMsi-Merが感情認識の精度と堅牢性を大幅に改善し、マルチモーダル特徴融合の有効性と提案されたアプローチを検証することを示しています。

要約(オリジナル)

With the advancement of artificial intelligence and computer vision technologies, multimodal emotion recognition has become a prominent research topic. However, existing methods face challenges such as heterogeneous data fusion and the effective utilization of modality correlations. This paper proposes a novel multimodal emotion recognition approach, DeepMSI-MER, based on the integration of contrastive learning and visual sequence compression. The proposed method enhances cross-modal feature fusion through contrastive learning and reduces redundancy in the visual modality by leveraging visual sequence compression. Experimental results on two public datasets, IEMOCAP and MELD, demonstrate that DeepMSI-MER significantly improves the accuracy and robustness of emotion recognition, validating the effectiveness of multimodal feature fusion and the proposed approach.

arxiv情報

著者 Wei Dai,Dequan Zheng,Feng Yu,Yanrong Zhang,Yaohui Hou
発行日 2025-02-12 17:07:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | A Novel Approach to for Multimodal Emotion Recognition : Multimodal semantic information fusion はコメントを受け付けていません

Ultrasound Image Generation using Latent Diffusion Models

要約

画像生成の拡散モデルは、多様で高品質の画像を生成する能力により、関心が高まる対象となっています。
特にまれな状況では、オープンソースの医療画像を自然な画像と比較して取得するのが難しいため、画像生成は医療画像に大きな可能性があります。
生成された画像は、後で分類モデルとセグメンテーションモデルをトレーニングするために使用できます。
このホワイトペーパーでは、さまざまな公開データベース上の大きな拡散モデルの連続した微調整により、現実的な超音波(US)画像をシミュレートすることを提案します。
そのために、BUSI(胸紙画像)の超音波乳房画像データセットで、最先端の潜在拡散モデルである安定した拡散を微調整しました。
臓器と病理を指定する単純なプロンプトを使用して、乳房の高品質の米国の画像を成功裏に生成しました。
さらに、コントロールネットを介してセグメンテーションを使用してモデルを条件付けすることにより、ユーザーコントロールを提供しました。
ソースコードをhttp://code.sonography.ai/をリリースして、科学コミュニティに速い米国の画像生成を許可します。

要約(オリジナル)

Diffusion models for image generation have been a subject of increasing interest due to their ability to generate diverse, high-quality images. Image generation has immense potential in medical imaging because open-source medical images are difficult to obtain compared to natural images, especially for rare conditions. The generated images can be used later to train classification and segmentation models. In this paper, we propose simulating realistic ultrasound (US) images by successive fine-tuning of large diffusion models on different publicly available databases. To do so, we fine-tuned Stable Diffusion, a state-of-the-art latent diffusion model, on BUSI (Breast US Images) an ultrasound breast image dataset. We successfully generated high-quality US images of the breast using simple prompts that specify the organ and pathology, which appeared realistic to three experienced US scientists and a US radiologist. Additionally, we provided user control by conditioning the model with segmentations through ControlNet. We will release the source code at http://code.sonography.ai/ to allow fast US image generation to the scientific community.

arxiv情報

著者 Benoit Freiche,Anthony El-Khoury,Ali Nasiri-Sarvi,Mahdi S. Hosseini,Damien Garcia,Adrian Basarab,Mathieu Boily,Hassan Rivaz
発行日 2025-02-12 17:11:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68-06, cs.CV | Ultrasound Image Generation using Latent Diffusion Models はコメントを受け付けていません

Light-A-Video: Training-free Video Relighting via Progressive Light Fusion

要約

大規模なデータセットと事前に訓練された拡散モデルによって駆動される画像の学習モデルの最近の進歩により、一貫した照明の賦課が可能になりました。
ただし、主に過剰なトレーニングコストと多様で高品質のビデオ再生データセットの不足のために、ビデオの再生はまだ遅れています。
フレームごとに画像の再照明モデルを簡単にアプリケーションすると、いくつかの問題が発生します。照明ソースの矛盾と再生外観の矛盾があり、生成されたビデオにちらつきができます。
この作業では、一時的にスムーズなビデオの学習を実現するためのトレーニングなしのアプローチであるLight-A-Videoを提案します。
イメージの再視力モデルから適応したLight-A-Videoは、照明の一貫性を高めるために2つの重要な手法を導入します。
まず、一貫した光の注意(CLA)モジュールを設計します。これにより、自己攻撃層内のクロスフレーム相互作用が強化され、バックグラウンド照明ソースの生成を安定させます。
第二に、光輸送の独立性の物理的原理を活用すると、ソースビデオの外観と再生外観の間に線形ブレンドを適用し、プログレッシブ光融合(PLF)戦略を使用して、照明でのスムーズな時間的遷移を確保します。
実験では、ライトA-A-Videoは、画質を維持しながら、再生ビデオの時間的一貫性を改善し、フレーム間のコヒーレントな照明遷移を確保することを示しています。
プロジェクトページ:https://bujiazi.github.io/light-a-video.github.io/。

要約(オリジナル)

Recent advancements in image relighting models, driven by large-scale datasets and pre-trained diffusion models, have enabled the imposition of consistent lighting. However, video relighting still lags, primarily due to the excessive training costs and the scarcity of diverse, high-quality video relighting datasets. A simple application of image relighting models on a frame-by-frame basis leads to several issues: lighting source inconsistency and relighted appearance inconsistency, resulting in flickers in the generated videos. In this work, we propose Light-A-Video, a training-free approach to achieve temporally smooth video relighting. Adapted from image relighting models, Light-A-Video introduces two key techniques to enhance lighting consistency. First, we design a Consistent Light Attention (CLA) module, which enhances cross-frame interactions within the self-attention layers to stabilize the generation of the background lighting source. Second, leveraging the physical principle of light transport independence, we apply linear blending between the source video’s appearance and the relighted appearance, using a Progressive Light Fusion (PLF) strategy to ensure smooth temporal transitions in illumination. Experiments show that Light-A-Video improves the temporal consistency of relighted video while maintaining the image quality, ensuring coherent lighting transitions across frames. Project page: https://bujiazi.github.io/light-a-video.github.io/.

arxiv情報

著者 Yujie Zhou,Jiazi Bu,Pengyang Ling,Pan Zhang,Tong Wu,Qidong Huang,Jinsong Li,Xiaoyi Dong,Yuhang Zang,Yuhang Cao,Anyi Rao,Jiaqi Wang,Li Niu
発行日 2025-02-12 17:24:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Light-A-Video: Training-free Video Relighting via Progressive Light Fusion はコメントを受け付けていません

Sketched Equivariant Imaging Regularization and Deep Internal Learning for Inverse Problems

要約

Equivariant Imaging(EI)の正則化は、地上の真実データを必要とせずに、深いイメージングネットワークの監視されていないトレーニングのための事実上の技術となっています。
EIベースの監視されていないトレーニングパラダイムが現在、高次元アプリケーションの非効率性につながる重要な計算冗長性を持っていることを観察して、加速のためにランダム化されたスケッチテクニックを活用するスケッチされたEI正規化を提案します。
次に、スケッチされたEI正規化を拡張して、加速された深い内部学習フレームワークを開発しました。
さらに、ネットワーク適応タスクの場合、正規化レイヤーのみを最適化することにより、EI-DIPとSK-EI-DIPの両方を加速するためのパラメーター効率の高いアプローチを提案します。
X線CTおよびマルチコイルMRI画像再構成タスクに関する我々の数値研究は、私たちのアプローチがテスト時にシングルインプット設定とネットワーク適応で標準のEIベースのカウンターパートにわたって重要な計算加速を達成できることを示しています。

要約(オリジナル)

Equivariant Imaging (EI) regularization has become the de-facto technique for unsupervised training of deep imaging networks, without any need of ground-truth data. Observing that the EI-based unsupervised training paradigm currently has significant computational redundancy leading to inefficiency in high-dimensional applications, we propose a sketched EI regularization which leverages the randomized sketching techniques for acceleration. We then extend our sketched EI regularization to develop an accelerated deep internal learning framework, Sketched Equivariant Deep Image Prior (Sk-EI-DIP), which can be efficiently applied for single-image and task-adapted reconstruction. Additionally, for network adaptation tasks, we propose a parameter-efficient approach for accelerating both EI-DIP and Sk-EI-DIP via optimizing only the normalization layers. Our numerical study on X-ray CT and multi-coil MRI image reconstruction tasks demonstrate that our approach can achieve significant computational acceleration over standard EI-based counterpart in single-input setting and network adaptation at test time.

arxiv情報

著者 Guixian Xu,Jinglai Li,Junqi Tang
発行日 2025-02-12 17:43:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV, math.OC | Sketched Equivariant Imaging Regularization and Deep Internal Learning for Inverse Problems はコメントを受け付けていません

Deep Spatiotemporal Clutter Filtering of Transthoracic Echocardiographic Images: Leveraging Contextual Attention and Residual Learning

要約

この研究では、経胸壁心エコー(TTE)画像シーケンスから残響乱雑さをフィルタリングするための深い畳み込み自動エンコーダーネットワークを提示します。
このタイプの混乱の時空の性質を考えると、フィルタリングネットワークは3D畳み込み層を採用して、心臓循環全体でそれを抑制します。
ネットワークの設計には、フィルターの有効性に寄与する2つの重要な機能が組み込まれています。1)散らかった領域に焦点を合わせ、コンテキスト情報を活用するための注意メカニズム、および2)細かい画像構造を保存するための残留学習。
ネットワークをトレーニングするために、さまざまなアーティファクトパターンをシミュレートし、6つの超音波ベンダーから超現実的な合成TTEシーケンスに重ねて、フィルタリングネットワークの入力を生成しました。
アーティファクトフリーのシーケンスは、地上の真実として機能しました。
フィルタリングネットワークのパフォーマンスは、目に見えない合成およびin vivoの人為的なシーケンスを使用して評価されました。
in vivoデータセットの結果により、合成データとシミュレートされたアーティファクトのみで訓練されているにもかかわらず、ネットワークの強力な一般化機能が確認されました。
ダウンストリーム処理のためのフィルタリングされたシーケンスの適合性は、セグメントひずみ曲線を計算することによって評価されました。
散らかったセグメントと乱雑なセグメントから計算されたひずみプロファイル間の矛盾の大幅な減少が、提案されたネットワークで乱雑なシーケンスをフィルタリングした後に観察されました。
訓練されたネットワークは、1秒のほんの一部でTTEシーケンスを処理し、リアルタイムのクラッターフィルタリングを可能にし、TTEシーケンスに由来する臨床的に関連するインデックスの精度を潜在的に改善します。
提案された方法のソースコードとフィルタリング結果のビデオファイルの例は、\ href {https://github.com/mahditabassian/deepturtutter-filtering/tree/main} {https://github.comで利用できます。
/mahditabassian/deeptrutter-filtering/tree/main}。

要約(オリジナル)

This study presents a deep convolutional autoencoder network for filtering reverberation clutter from transthoracic echocardiographic (TTE) image sequences. Given the spatiotemporal nature of this type of clutter, the filtering network employs 3D convolutional layers to suppress it throughout the cardiac cycle. The design of the network incorporates two key features that contribute to the effectiveness of the filter: 1) an attention mechanism for focusing on cluttered regions and leveraging contextual information, and 2) residual learning for preserving fine image structures. To train the network, a diverse set of artifact patterns was simulated and superimposed onto ultra-realistic synthetic TTE sequences from six ultrasound vendors, generating input for the filtering network. The artifact-free sequences served as ground-truth. Performance of the filtering network was evaluated using unseen synthetic and in vivo artifactual sequences. Results from the in vivo dataset confirmed the network’s strong generalization capabilities, despite being trained solely on synthetic data and simulated artifacts. The suitability of the filtered sequences for downstream processing was assessed by computing segmental strain curves. A significant reduction in the discrepancy between strain profiles computed from cluttered and clutter-free segments was observed after filtering the cluttered sequences with the proposed network. The trained network processes a TTE sequence in a fraction of a second, enabling real-time clutter filtering and potentially improving the precision of clinically relevant indices derived from TTE sequences. The source code of the proposed method and example video files of the filtering results are available at: \href{https://github.com/MahdiTabassian/Deep-Clutter-Filtering/tree/main}{https://github.com/MahdiTabassian/Deep-Clutter-Filtering/tree/main}.

arxiv情報

著者 Mahdi Tabassian,Somayeh Akbari,Sandro Queirós,Jan D’hooge
発行日 2025-02-12 18:15:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Deep Spatiotemporal Clutter Filtering of Transthoracic Echocardiographic Images: Leveraging Contextual Attention and Residual Learning はコメントを受け付けていません

Randomness of Low-Layer Parameters Determines Confusing Samples in Terms of Interaction Representations of a DNN

要約

この論文では、ディープニューラルネットワーク(DNN)によってエンコードされた相互作用の複雑さは、その一般化力を説明できることがわかります。
また、非一般化できない相互作用で表されるDNNの混乱したサンプルは、その低層パラメーターによって決定されることも発見します。
それに比べて、高層パラメーターやネットワークアーキテクチャなどの他の要因は、混乱するサンプルの組成にはあまり影響を与えません。
異なる低層パラメーターを持つ2つのDNNは、通常、類似のパフォーマンスを持っているにもかかわらず、完全に異なる混乱サンプルセットを持っています。
この発見は、宝くじのチケット仮説の理解を広げ、異なるDNNの特徴的な表現力をよく説明しています。

要約(オリジナル)

In this paper, we find that the complexity of interactions encoded by a deep neural network (DNN) can explain its generalization power. We also discover that the confusing samples of a DNN, which are represented by non-generalizable interactions, are determined by its low-layer parameters. In comparison, other factors, such as high-layer parameters and network architecture, have much less impact on the composition of confusing samples. Two DNNs with different low-layer parameters usually have fully different sets of confusing samples, even though they have similar performance. This finding extends the understanding of the lottery ticket hypothesis, and well explains distinctive representation power of different DNNs.

arxiv情報

著者 Junpeng Zhang,Lei Cheng,Qing Li,Liang Lin,Quanshi Zhang
発行日 2025-02-12 18:25:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Randomness of Low-Layer Parameters Determines Confusing Samples in Terms of Interaction Representations of a DNN はコメントを受け付けていません

Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment

要約

特にGPT-4Oに続く大規模な言語モデルの最近の進歩により、より多くのモダリティを理解できるオムニモーダルモデルの開発への関心が高まっています。
いくつかのオープンソースの代替品が出現していますが、パフォーマンスには特殊なシングルモダリティモデルの背後には顕著な遅れがあります。
このペーパーでは、専門化されたカウンターパートと比較して、画像、ビデオ、オーディオの理解を超えて競争力のあるパフォーマンスを達成するオムニモーダル言語モデルであるOlaを紹介します。
Olaのコア設計は、言語モデルのサポートモダリティを徐々に拡張するプログレッシブモダリティアライメント戦略にあります。
トレーニングパイプラインは、画像とテキストという最も明確なモダリティから始まり、言語とオーディオの知識を接続する音声データ、およびすべてのモダリティを接続するビデオデータを使用して、モデルのスキルセットを徐々に拡張します。
プログレッシブ学習パイプラインにより、クロスモーダルアライメントデータの比較的小さなサイズを維持することもでき、既存のビジョン言語モデルからのオムニモーダルの開発が簡単でコストがかかりません。
さらに、GPT-4Oなどの高度なインタラクティブエクスペリエンスのロックを解除するために、ストリーミング音声生成のための文ごとのデコードソリューションをさらに設計します。
広範な実験は、Olaがすべてのモダリティで既存のオープンオムニモーダルLLMを上回り、同様のサイズの最先端の専門モデルと比較して非常に競争力のあるパフォーマンスを達成することを示しています。
私たちは、この新興分野での将来の研究を促進するために、オラを完全にオープンなオムニモーダル理解ソリューションにすることを目指しています。
モデルの重み、コード、およびデータは、https://github.com/ola-omni/olaでオープンソーリングされています。

要約(オリジナル)

Recent advances in large language models, particularly following GPT-4o, have sparked increasing interest in developing omni-modal models capable of understanding more modalities. While some open-source alternatives have emerged, there is still a notable lag behind specialized single-modality models in performance. In this paper, we present Ola, an Omni-modal language model that achieves competitive performance across image, video, and audio understanding compared to specialized counterparts. The core design of Ola lies in its progressive modality alignment strategy that extends the supporting modality of the language model progressively. Our training pipeline begins with the most distinct modalities: image and text, then gradually expands the skill sets of the model using speech data that connects language and audio knowledge, and video data that connects all modalities. The progressive learning pipeline also enables us to maintain a relatively small size of the cross-modal alignment data, making developing omni-modal from existing vision-language models easy and less costly. Moreover, to unlock an advanced interactive experience like GPT-4o, we further design a sentence-wise decoding solution for streaming speech generation. Extensive experiments demonstrate that Ola surpasses existing open omni-modal LLMs across all modalities while achieving highly competitive performance compared to state-of-the-art specialized models of similar sizes. We aim to make Ola a fully open omni-modal understanding solution to advance future research in this emerging field. Model weights, code, and data are open-sourced at https://github.com/Ola-Omni/Ola.

arxiv情報

著者 Zuyan Liu,Yuhao Dong,Jiahui Wang,Ziwei Liu,Winston Hu,Jiwen Lu,Yongming Rao
発行日 2025-02-12 18:40:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SD, eess.AS, eess.IV | Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment はコメントを受け付けていません

Rapid Whole Brain Mesoscale In-vivo MR Imaging using Multi-scale Implicit Neural Representation

要約

目的:スキャン時間を削減しながら高信号対雑音比(SNR)を維持しながら、マルチビューの厚いスライスの獲得のための暗黙の神経表現(INR)を使用して、新しい画像再構成技術を開発および検証する。
方法:回転ビュースーパー解像度(Rover)-MRIを提案します。これは、マルチビューの厚いスライスからMRIデータを再構築するように設計された監視されていないニューラルネットワークベースのアルゴリズムであり、細かい解剖学的詳細を維持しながらスキャン時間を効果的に削減します。
私たちの方法を、二本の補間と現在の最先端の正規化された最小二乗スーパー解像度再構成(LS-SRR)技術の両方と比較します。
検証は、グラウンドトゥルースエクスビボモンキー脳データを使用して実行され、いくつかの生体内のヒトデータセットにわたって優れた再構成品質を示します。
特に、7T MRIスキャナーでわずか17分間のスキャン時間で達成された、前例のない180 {\ mu} m等方性空間分解能を使用して、人間の脳全体の脳脳全体の脳全体の再構築を実現します。
結果:Rover-MRIは、再構築品質の点でLS-SRR法をアウトパフォームし、22.4%低い相対誤差(RE)と7.5%低い全幅半分(FWHM)が、スキャン時間のほぼ半分で細かい構造の詳細をより良い保存を示しています。
結論:Rover-MRIは、メソスケールのMRイメージングに効率的で堅牢なアプローチを提供し、迅速で高解像度の全脳スキャンを可能にします。
その汎用性は、解剖学的詳細と時間効率の良いイメージングを必要とする研究アプリケーションに大きな期待を抱いています。

要約(オリジナル)

Purpose: To develop and validate a novel image reconstruction technique using implicit neural representations (INR) for multi-view thick-slice acquisitions while reducing the scan time but maintaining high signal-to-noise ratio (SNR). Methods: We propose Rotating-view super-resolution (ROVER)-MRI, an unsupervised neural network-based algorithm designed to reconstruct MRI data from multi-view thick slices, effectively reducing scan time by 2-fold while maintaining fine anatomical details. We compare our method to both bicubic interpolation and the current state-of-the-art regularized least-squares super-resolution reconstruction (LS-SRR) technique. Validation is performed using ground-truth ex-vivo monkey brain data, and we demonstrate superior reconstruction quality across several in-vivo human datasets. Notably, we achieve the reconstruction of a whole human brain in-vivo T2-weighted image with an unprecedented 180{\mu}m isotropic spatial resolution, accomplished in just 17 minutes of scan time on a 7T MRI scanner. Results: ROVER-MRI outperformed LS-SRR method in terms of reconstruction quality with 22.4% lower relative error (RE) and 7.5% lower full-width half maximum (FWHM) indicating better preservation of fine structural details in nearly half the scan time. Conclusion: ROVER-MRI offers an efficient and robust approach for mesoscale MR imaging, enabling rapid, high-resolution whole-brain scans. Its versatility holds great promise for research applications requiring anatomical details and time-efficient imaging.

arxiv情報

著者 Jun Lyu,Lipeng Ning,William Consagra,Qiang Liu,Richard J. Rushmore,Berkin Bilgic,Yogesh Rathi
発行日 2025-02-12 18:48:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV | Rapid Whole Brain Mesoscale In-vivo MR Imaging using Multi-scale Implicit Neural Representation はコメントを受け付けていません