CorPipe at CRAC 2024: Predicting Zero Mentions from Raw Text

要約

CRAC 2024多言語共参照解決共有タスクの優勝作品であるCorPipe 24を発表する。この共有タスクの3回目の反復では、新たな目的として、ゼロの共参照言及に必要な空のノードも予測することである(一方、空のノードは例年入力で与えられる)。こうすることで、生のテキストに対して共参照解決を行うことができる。我々は2つのモデルバリエーションを評価した:~2段階アプローチ(空ノードは事前に訓練されたエンコーダーモデルを使用して最初に予測され、次に別の事前に訓練されたモデルによって文の単語と一緒に処理される)と1段階アプローチ(1つの事前に訓練されたエンコーダーモデルが空ノード、共参照の言及、共参照リンクを共同で生成する)。どちらの設定でも、CorPipeはそれぞれ3.9%、2.8%ポイントという大きな差で他の参加者を上回った。ソースコードと学習済みモデルは https://github.com/ufal/crac2024-corpipe で入手可能。

要約(オリジナル)

We present CorPipe 24, the winning entry to the CRAC 2024 Shared Task on Multilingual Coreference Resolution. In this third iteration of the shared task, a novel objective is to also predict empty nodes needed for zero coreference mentions (while the empty nodes were given on input in previous years). This way, coreference resolution can be performed on raw text. We evaluate two model variants: a~two-stage approach (where the empty nodes are predicted first using a pretrained encoder model and then processed together with sentence words by another pretrained model) and a single-stage approach (where a single pretrained encoder model generates empty nodes, coreference mentions, and coreference links jointly). In both settings, CorPipe surpasses other participants by a large margin of 3.9 and 2.8 percent points, respectively. The source code and the trained model are available at https://github.com/ufal/crac2024-corpipe .

arxiv情報

著者 Milan Straka
発行日 2024-10-03 17:58:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | コメントする

Erasing Conceptual Knowledge from Language Models

要約

言語モデルにおける概念消去は、従来、包括的な評価の枠組みを欠いていたため、消去手法の有効性の評価が不完全であった。我々は、3つの重要な基準、すなわち、イノセンス(完全な知識除去)、シームレス(条件付きの流暢な生成の維持)、特異性(無関係なタスク性能の維持)を中心とした評価パラダイムを提案する。この評価基準は、3つの次元すべてに対応するように設計された新しい手法である言語記憶の消去(ELM)の開発の動機付けとなる。ELMは、消去された概念に対する出力分布を変化させる一方で、消去された概念に対するプロンプト時の流暢さを含むモデル全体の能力を維持するために、ターゲットとなる低ランクの更新を用いる。ELMの有効性をバイオセキュリティ、サイバーセキュリティ、文学分野の消去タスクで実証する。比較分析により、ELMは、消去されたトピックの評価におけるランダムに近いスコア、生成の流暢さ、無関係なベンチマークにおける精度の維持、敵対的攻撃に対する頑健性など、提案した指標において優れた性能を達成することが示された。我々のコード、データ、学習済みモデルは、https://elm.baulab.info。

要約(オリジナル)

Concept erasure in language models has traditionally lacked a comprehensive evaluation framework, leading to incomplete assessments of effectiveness of erasure methods. We propose an evaluation paradigm centered on three critical criteria: innocence (complete knowledge removal), seamlessness (maintaining conditional fluent generation), and specificity (preserving unrelated task performance). Our evaluation metrics naturally motivate the development of Erasure of Language Memory (ELM), a new method designed to address all three dimensions. ELM employs targeted low-rank updates to alter output distributions for erased concepts while preserving overall model capabilities including fluency when prompted for an erased concept. We demonstrate ELM’s efficacy on biosecurity, cybersecurity, and literary domain erasure tasks. Comparative analysis shows that ELM achieves superior performance across our proposed metrics, including near-random scores on erased topic assessments, generation fluency, maintained accuracy on unrelated benchmarks, and robustness under adversarial attacks. Our code, data, and trained models are available at https://elm.baulab.info

arxiv情報

著者 Rohit Gandikota,Sheridan Feucht,Samuel Marks,David Bau
発行日 2024-10-03 17:59:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG | コメントする

Which questions should I answer? Salience Prediction of Inquisitive Questions

要約

探究的な質問(人が読書をする際にする、オープンエンドで好奇心主導の質問)は、談話処理(Kehler and Rohde, 2017; Onea, 2016)や理解(Prince, 2004)に不可欠な要素である。NLPの最近の研究では、LLMの質問生成機能を利用して、幅広いアプリケーションを強化している。しかし、詮索好きな質問の空間は広大で、与えられた文脈から多くの質問を呼び起こすことができる。では、どれを優先して答えを見つけるべきなのだろうか?言語理論は残念ながら、この問いに対する答えをまだ提供していない。本論文では、QSALIENCEを紹介する。QSALIENCEは、好奇心旺盛な質問のサリエンスを予測するものである。QSALIENCEは、1,766の(文脈と質問)ペアの言語学者注釈付きサリエンススコアのデータセットに対してインストラクションチューニングされている。その質問に答えることで、テキストの理解が大きく深まる場合、その質問はサリエンススコアが高くなる(Van Rooy, 2003)。我々は、潜在的な質問(Onea, 2016)と議論中の質問(Roberts, 2012)の橋渡しをすることで、顕著性の高い質問が同じ記事で回答される可能性が経験的に高いことを示す。さらに、顕著な質問に答えることがニュースにおける要約の質の指標であることを示すことで、我々の発見を検証する。

要約(オリジナル)

Inquisitive questions — open-ended, curiosity-driven questions people ask as they read — are an integral part of discourse processing (Kehler and Rohde, 2017; Onea, 2016) and comprehension (Prince, 2004). Recent work in NLP has taken advantage of question generation capabilities of LLMs to enhance a wide range of applications. But the space of inquisitive questions is vast: many questions can be evoked from a given context. So which of those should be prioritized to find answers? Linguistic theories, unfortunately, have not yet provided an answer to this question. This paper presents QSALIENCE, a salience predictor of inquisitive questions. QSALIENCE is instruction-tuned over our dataset of linguist-annotated salience scores of 1,766 (context, question) pairs. A question scores high on salience if answering it would greatly enhance the understanding of the text (Van Rooy, 2003). We show that highly salient questions are empirically more likely to be answered in the same article, bridging potential questions (Onea, 2016) with Questions Under Discussion (Roberts, 2012). We further validate our findings by showing that answering salient questions is an indicator of summarization quality in news.

arxiv情報

著者 Yating Wu,Ritika Mangla,Alexandros G. Dimakis,Greg Durrett,Junyi Jessy Li
発行日 2024-10-03 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | コメントする

Learning from Offline Foundation Features with Tensor Augmentations

要約

LOFF-TA(Learning from Offline Foundation Features with Tensor Augmentations)を紹介する。LOFF-TAは、直接的な開発が不可能な限られたリソース環境において、基礎モデルの能力を活用するために設計された効率的な学習スキームである。LOFF-TAは、凍結された基礎モデルからキャッシュされた特徴埋め込みでコンパクトな分類器を学習することで、学習が最大37倍速くなり、GPUメモリ使用量が最大26倍削減される。拡張された画像の埋め込みは、保存するには多すぎるが、拡張処理は学習に不可欠であるため、我々は、拡張されていない元の画像のキャッシュされた埋め込みにテンソル拡張を適用することを提案する。LOFF-TAは、計算能力の限られた環境において、そのサイズに関係なく、基礎モデルの力を活用することを可能にする。さらに、LOFF-TAは、計算量を増加させることなく、高解像度の画像に基礎モデルを適用するために用いることができる。特定のシナリオでは、LOFF-TAを用いたトレーニングは、基礎モデルを直接微調整するよりも良い結果をもたらすことがわかります。

要約(オリジナル)

We introduce Learning from Offline Foundation Features with Tensor Augmentations (LOFF-TA), an efficient training scheme designed to harness the capabilities of foundation models in limited resource settings where their direct development is not feasible. LOFF-TA involves training a compact classifier on cached feature embeddings from a frozen foundation model, resulting in up to $37\times$ faster training and up to $26\times$ reduced GPU memory usage. Because the embeddings of augmented images would be too numerous to store, yet the augmentation process is essential for training, we propose to apply tensor augmentations to the cached embeddings of the original non-augmented images. LOFF-TA makes it possible to leverage the power of foundation models, regardless of their size, in settings with limited computational capacity. Moreover, LOFF-TA can be used to apply foundation models to high-resolution images without increasing compute. In certain scenarios, we find that training with LOFF-TA yields better results than directly fine-tuning the foundation model.

arxiv情報

著者 Emir Konuk,Christos Matsoukas,Moein Sorkhei,Phitchapha Lertsiravaramet,Kevin Smith
発行日 2024-10-03 14:35:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | コメントする

HiFiSeg: High-Frequency Information Enhanced Polyp Segmentation with Global-Local Vision Transformer

要約

様々なコンピュータビジョンタスクにおいて、Vision Transformer(ViT)ベースの手法が高い性能を発揮することは、数多くの研究によって実証されている。しかし、ViTモデルは、特に複雑なシナリオにおいて、小さなターゲットを検出し、エッジの詳細を保持するために重要である、画像中の高周波数成分を効果的に捕捉するのに苦労することが多い。この限界は、大腸ポリープのセグメンテーションにおいて特に困難である。このような状況において、正確なセマンティックセグメンテーションを達成するためには、境界の詳細のような高周波の情報が不可欠である。このような課題に対処するため、我々は大腸ポリープのセグメンテーションのための新しいネットワークであるHiFiSegを提案する。HiFiSegは、グローバル-ローカル視覚変換フレームワークにより高周波数情報処理を強化する。HiFiSegは、ピラミッドビジョントランスフォーマー(PVT)をエンコーダーとして活用し、グローバル-ローカル相互作用モジュール(GLIM)と選択的集約モジュール(SAM)という2つの重要なモジュールを導入している。GLIMは並列構造を採用し、複数のスケールでグローバル情報とローカル情報を融合し、きめ細かい特徴を効果的に捉える。SAMは、低レベルの特徴から得られる境界の詳細と高レベルの特徴から得られる意味情報を選択的に統合し、ポリープを正確に検出してセグメント化するモデルの能力を大幅に向上させる。広く認識されている5つのベンチマークデータセットを用いた広範な実験により、ポリープのセグメンテーションにおけるHiFiSegの有効性が実証された。特に、難易度の高いCVC-ColonDBデータセットとETISデータセットのmDiceスコアは、それぞれ0.826と0.822に達し、このタスク特有の複雑性を処理するHiFiSegの優れた性能を強調しています。

要約(オリジナル)

Numerous studies have demonstrated the strong performance of Vision Transformer (ViT)-based methods across various computer vision tasks. However, ViT models often struggle to effectively capture high-frequency components in images, which are crucial for detecting small targets and preserving edge details, especially in complex scenarios. This limitation is particularly challenging in colon polyp segmentation, where polyps exhibit significant variability in structure, texture, and shape. High-frequency information, such as boundary details, is essential for achieving precise semantic segmentation in this context. To address these challenges, we propose HiFiSeg, a novel network for colon polyp segmentation that enhances high-frequency information processing through a global-local vision transformer framework. HiFiSeg leverages the pyramid vision transformer (PVT) as its encoder and introduces two key modules: the global-local interaction module (GLIM) and the selective aggregation module (SAM). GLIM employs a parallel structure to fuse global and local information at multiple scales, effectively capturing fine-grained features. SAM selectively integrates boundary details from low-level features with semantic information from high-level features, significantly improving the model’s ability to accurately detect and segment polyps. Extensive experiments on five widely recognized benchmark datasets demonstrate the effectiveness of HiFiSeg for polyp segmentation. Notably, the mDice scores on the challenging CVC-ColonDB and ETIS datasets reached 0.826 and 0.822, respectively, underscoring the superior performance of HiFiSeg in handling the specific complexities of this task.

arxiv情報

著者 Jingjing Ren,Xiaoyong Zhang,Lina Zhang
発行日 2024-10-03 14:36:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | コメントする

A Foundation Model for the Solar Dynamics Observatory

要約

SDO-FMは、NASAの太陽観測衛星(SDO)のデータを利用した基礎モデルである。3つの別々の観測装置を統合し、太陽の複雑な物理的相互作用をマルチモーダル埋め込み空間にカプセル化する。このモデルは、太陽物理学研究のために膨大なデータセットをより計算しやすくし、機器融合を必要とする調査を可能にすることで、SDOを含む科学的調査を合理化するために使用することができる。機械学習準備の整ったデータセットを作成するための取り込みパイプライン、モデルのアーキテクチャと学習アプローチ、埋め込み結果と微調整可能なモデル、そして最終的に下流で微調整されたアプリケーションという4つの重要な構成要素について説明する。この努力の重要な構成要素は、開発の各段階で主題の専門家を参加させることであり、科学的価値をレビューし、モデルアーキテクチャ、データセット、およびトレーニングパラダイムの決定のためのガイダンスを提供することである。この論文は、Hugging Faceとsdofm.orgでコミュニティに公開されている、事前学習済みモデルと埋め込みデータセットのリリースを記念するものです。

要約(オリジナル)

SDO-FM is a foundation model using data from NASA’s Solar Dynamics Observatory (SDO) spacecraft; integrating three separate instruments to encapsulate the Sun’s complex physical interactions into a multi-modal embedding space. This model can be used to streamline scientific investigations involving SDO by making the enormous datasets more computationally accessible for heliophysics research and enable investigations that require instrument fusion. We discuss four key components: an ingestion pipeline to create machine learning ready datasets, the model architecture and training approach, resultant embeddings and fine-tunable models, and finally downstream fine-tuned applications. A key component of this effort has been to include subject matter specialists at each stage of development; reviewing the scientific value and providing guidance for model architecture, dataset, and training paradigm decisions. This paper marks release of our pretrained models and embedding datasets, available to the community on Hugging Face and sdofm.org.

arxiv情報

著者 James Walsh,Daniel G. Gass,Raul Ramos Pollan,Paul J. Wright,Richard Galvez,Noah Kasmanoff,Jason Naradowsky,Anne Spalding,James Parr,Atılım Güneş Baydin
発行日 2024-10-03 14:36:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: astro-ph.SR, cs.CV | コメントする

Pseudo-Stereo Inputs: A Solution to the Occlusion Challenge in Self-Supervised Stereo Matching

要約

自己教師付きステレオマッチングは、高価なラベル付きデータから独立しているため、応用や研究に大きな期待が持てる。しかし、測光損失関数に基づく直接的な自己教師付きステレオマッチングパラダイムは、オクルージョンの課題による性能問題に一貫して苦戦してきた。オクルージョンの問題の核心は、オクルージョンされたピクセルの位置が、入力ステレオ画像によって定義されたエピポーラ探索方向と常に一致するという事実にある。本研究では、オクルージョンの核となる課題に対処するために、シンプルでありながら非常に効果的な擬似ステレオ入力戦略を提案する。この戦略は入力画像とフィードバック画像を切り離し、ネットワークにオクルージョン物体の両側から確率的に情報をサンプリングさせる。その結果、前述の固定オクルージョン領域における持続的な情報不足が緩和される。これに基づいて、我々はさらに、この戦略から生じるフィードバックの衝突とオーバーフィッティングの問題に対処する。これらの構成要素を統合することで、本手法は既存の手法と比較して安定かつ大幅な性能向上を達成する。性能を評価するために定量的実験を行った。さらに定性的な実験により、オクルード領域でも正確な視差推論が可能であることを示す。これらの結果は、測光損失に基づく直接的な自己教師付きステレオマッチングの分野において、従来の手法よりも大きく進歩したことを示している。提案する擬似ステレオ入力戦略は、その単純さと有効性から、直接自己教師付きステレオマッチングの新しいパラダイムとなる可能性を秘めている。コードはhttps://github.com/qrzyang/Pseudo-Stereo。

要約(オリジナル)

Self-supervised stereo matching holds great promise for application and research due to its independence from expensive labeled data. However, direct self-supervised stereo matching paradigms based on photometric loss functions have consistently struggled with performance issues due to the occlusion challenge. The crux of the occlusion challenge lies in the fact that the positions of occluded pixels consistently align with the epipolar search direction defined by the input stereo images, leading to persistent information loss and erroneous feedback at fixed locations during self-supervised training. In this work, we propose a simple yet highly effective pseudo-stereo inputs strategy to address the core occlusion challenge. This strategy decouples the input and feedback images, compelling the network to probabilistically sample information from both sides of the occluding objects. As a result, the persistent lack of information in the aforementioned fixed occlusion areas is mitigated. Building upon this, we further address feedback conflicts and overfitting issues arising from the strategy. By integrating these components, our method achieves stable and significant performance improvements compared to existing methods. Quantitative experiments are conducted to evaluate the performance. Qualitative experiments further demonstrate accurate disparity inference even at occluded regions. These results demonstrate a significant advancement over previous methods in the field of direct self-supervised stereo matching based on photometric loss. The proposed pseudo-stereo inputs strategy, due to its simplicity and effectiveness, has the potential to serve as a new paradigm for direct self-supervised stereo matching. Code is available at https://github.com/qrzyang/Pseudo-Stereo.

arxiv情報

著者 Ruizhi Yang,Xingqiang Li,Jiajun Bai,Jinsong Du
発行日 2024-10-03 14:40:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | コメントする

MARVIS: Motion & Geometry Aware Real and Virtual Image Segmentation

要約

水面付近での自律航行、3D再構成、物体認識などのタスクは、海洋ロボットアプリケーションにおいて極めて重要である。しかし、ランダムな空気と水の界面からの光の反射や屈折、不規則な液体の流れなど、動的な外乱のために課題が生じ、知覚やナビゲーションシステムの潜在的な故障につながる可能性がある。従来のコンピュータビジョンアルゴリズムは、実画像領域と仮想画像領域の区別に苦労しており、タスクを著しく複雑にしている。仮想画像領域とは、通常、反射や屈折による光線の再配向によって形成される見かけ上の表現であり、実際の物理的な位置がなくても物体が存在するように錯覚させる。この研究では、領域不変情報、モーションエントロピー・カーネル、エピポーラ幾何学的整合性を組み合わせた合成画像を利用する、実画像領域と仮想画像領域のセグメンテーションのための新しいアプローチを提案する。我々のセグメンテーションネットワークは、ドメインが変わっても再トレーニングの必要がない。このことは、同じセグメンテーション・ネットワークを、シミュレーションと実世界という2つの異なるドメインに展開することで示される。水面の複雑さを模倣したリアルな合成画像を作成することで、我々のネットワーク(MARVIS)が実画像と仮想画像を効果的に識別するためのきめ細かい学習データを提供する。モーションとジオメトリを考慮した設計の選択と包括的な実験分析により、私たちは未知の実世界領域において最先端の実-仮想画像セグメンテーション性能を達成し、小さな計算フットプリントを確保しながら78%以上のIoUと86%以上のF1-Scoreを達成しました。MARVISは、シングルGPU(CPUコア)で43FPS(8FPS)以上の推論レートを提供します。我々のコードとデータセットは、https://github.com/jiayi-wu-umd/MARVIS。

要約(オリジナル)

Tasks such as autonomous navigation, 3D reconstruction, and object recognition near the water surfaces are crucial in marine robotics applications. However, challenges arise due to dynamic disturbances, e.g., light reflections and refraction from the random air-water interface, irregular liquid flow, and similar factors, which can lead to potential failures in perception and navigation systems. Traditional computer vision algorithms struggle to differentiate between real and virtual image regions, significantly complicating tasks. A virtual image region is an apparent representation formed by the redirection of light rays, typically through reflection or refraction, creating the illusion of an object’s presence without its actual physical location. This work proposes a novel approach for segmentation on real and virtual image regions, exploiting synthetic images combined with domain-invariant information, a Motion Entropy Kernel, and Epipolar Geometric Consistency. Our segmentation network does not need to be re-trained if the domain changes. We show this by deploying the same segmentation network in two different domains: simulation and the real world. By creating realistic synthetic images that mimic the complexities of the water surface, we provide fine-grained training data for our network (MARVIS) to discern between real and virtual images effectively. By motion & geometry-aware design choices and through comprehensive experimental analysis, we achieve state-of-the-art real-virtual image segmentation performance in unseen real world domain, achieving an IoU over 78% and a F1-Score over 86% while ensuring a small computational footprint. MARVIS offers over 43 FPS (8 FPS) inference rates on a single GPU (CPU core). Our code and dataset are available here https://github.com/jiayi-wu-umd/MARVIS.

arxiv情報

著者 Jiayi Wu,Xiaomin Lin,Shahriar Negahdaripour,Cornelia Fermüller,Yiannis Aloimonos
発行日 2024-10-03 14:44:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | コメントする

MedVisionLlama: Leveraging Pre-Trained Large Language Model Layers to Enhance Medical Image Segmentation

要約

大規模言語モデル(Large Language Models: LLM)は、テキストデータにおける汎用性の高さで知られているが、正確な画像診断のために重要なタスクである医療画像のセグメンテーションを強化する可能性について、ますます研究が進んでいる。本研究では、事前に訓練されたLLM変換ブロックを統合することで、医用画像セグメンテーションのためのVision Transformers (ViT)を強化することを探求する。ViTベースのモデルのエンコーダにフリーズしたLLM変換ブロックを組み込む我々のアプローチは、様々な医用画像モダリティにおけるセグメンテーション性能の大幅な改善につながる。大局的特徴学習と局所的特徴学習を組み合わせたハイブリッド注意メカニズムを提案し、異なるスケールの特徴を集約するためのマルチスケールフュージョンブロックを用いる。強化されたモデルは、平均Diceスコアが0.74から0.79に増加し、精度、精度、Jaccard指数が向上するなど、大幅な性能向上を示す。これらの結果は、医用画像セグメンテーションの改良におけるLLMベースの変換器の有効性を示し、モデルの精度と頑健性を大幅に向上させる可能性を強調している。ソースコードと我々の実装は以下から入手可能: https://bit.ly/3zf2CVs

要約(オリジナル)

Large Language Models (LLMs), known for their versatility in textual data, are increasingly being explored for their potential to enhance medical image segmentation, a crucial task for accurate diagnostic imaging. This study explores enhancing Vision Transformers (ViTs) for medical image segmentation by integrating pre-trained LLM transformer blocks. Our approach, which incorporates a frozen LLM transformer block into the encoder of a ViT-based model, leads to substantial improvements in segmentation performance across various medical imaging modalities. We propose a Hybrid Attention Mechanism that combines global and local feature learning with a Multi-Scale Fusion Block for aggregating features across different scales. The enhanced model shows significant performance gains, including an average Dice score increase from 0.74 to 0.79 and improvements in accuracy, precision, and the Jaccard Index. These results demonstrate the effectiveness of LLM-based transformers in refining medical image segmentation, highlighting their potential to significantly boost model accuracy and robustness. The source code and our implementation are available at: https://bit.ly/3zf2CVs

arxiv情報

著者 Gurucharan Marthi Krishna Kumar,Aman Chadha,Janine Mendola,Amir Shmuel
発行日 2024-10-03 14:50:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV, eess.IV | コメントする

NestedMorph: Enhancing Deformable Medical Image Registration with Nested Attention Mechanisms

要約

変形可能な画像レジストレーションは、異なるモダリティ間で非線形に医用画像を整列させ、様々な解剖学的構造間の正確な空間的対応を可能にするために極めて重要である。本論文では、T1強調(T1w)MRIと拡散MRI(dMRI)データ間の被験者内変形レジストレーションを改善するために、ネステッド・アテンション・フュージョン(Nested Attention Fusion)アプローチを利用した新しいネットワークであるNestedMorphを紹介する。NestedMorphは、マルチスケールフレームワークを用いて、エンコーダからの高解像度空間詳細情報とデコーダからの意味情報を統合し、局所的特徴抽出と大域的特徴抽出の両方を強化する。我々のモデルは、VoxelMorph、MIDIR、CycleMorphのようなCNNベースのアプローチや、TransMorphやViT-V-NetのようなTransformerベースのモデル、NiftyRegやSyNのような伝統的な手法を含む既存の手法を顕著に上回る。HCPデータセットでの評価は、NestedMorphがSSIM、HD95、SDlogJを含む主要なメトリクスにおいて優れた性能を達成し、最高のSSIMは0.89、最低のHD95は2.5、SDlogJは0.22であることを示しています。これらの結果は、NestedMorphが局所的および大域的な画像特徴を効果的に捉える能力を持ち、優れたレジストレーション性能につながることを強調している。本研究の有望な結果は、NestedMorphが変形可能な医用画像レジストレーションを大幅に進歩させる可能性を強調するものであり、将来の研究や臨床応用のための強固なフレームワークを提供するものである。ソースコードと我々の実装は以下から入手可能: https://bit.ly/3zdVqcg

要約(オリジナル)

Deformable image registration is crucial for aligning medical images in a non-linear fashion across different modalities, allowing for precise spatial correspondence between varying anatomical structures. This paper presents NestedMorph, a novel network utilizing a Nested Attention Fusion approach to improve intra-subject deformable registration between T1-weighted (T1w) MRI and diffusion MRI (dMRI) data. NestedMorph integrates high-resolution spatial details from an encoder with semantic information from a decoder using a multi-scale framework, enhancing both local and global feature extraction. Our model notably outperforms existing methods, including CNN-based approaches like VoxelMorph, MIDIR, and CycleMorph, as well as Transformer-based models such as TransMorph and ViT-V-Net, and traditional techniques like NiftyReg and SyN. Evaluations on the HCP dataset demonstrate that NestedMorph achieves superior performance across key metrics, including SSIM, HD95, and SDlogJ, with the highest SSIM of 0.89, and the lowest HD95 of 2.5 and SDlogJ of 0.22. These results highlight NestedMorph’s ability to capture both local and global image features effectively, leading to superior registration performance. The promising outcomes of this study underscore NestedMorph’s potential to significantly advance deformable medical image registration, providing a robust framework for future research and clinical applications. The source code and our implementation are available at: https://bit.ly/3zdVqcg

arxiv情報

著者 Gurucharan Marthi Krishna Kumar,Janine Mendola,Amir Shmuel
発行日 2024-10-03 14:53:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, eess.IV | コメントする