Visualization of a multidimensional point cloud as a 3D swarm of avatars

要約

この記事では、Chernoff Facesに触発されたアイコンを使用して、多次元データの視覚化に対する革新的なアプローチを提示します。
このアプローチは、古典的な投影技術と特定のデータ寸法の割り当てと、特徴を模倣するために融合し、人間の脳が表情を解釈する自然な能力を活用します。
データディメンションのセマンティック分割を直感的かつ技術的なカテゴリに導入し、前者をアバター機能に割り当て、後者を4つ、または潜在的により多くの寸法に投影します。
この手法は、DPVisionオープンソースイメージ処理プラットフォームへのプラグインとして実装されています。
このプラグインを使用すると、データをデータのさまざまな側面を表すだけでなく、ハイパースペースと顔の特徴を表すアバターの群れの形でデータをインタラクティブに検討できます。
合成テストデータとポルトガルのヴィンホヴェルデワインの12次元データベースに基づくサンプルの視覚化は、複雑なデータ構造の分析に対するアプローチの有用性を確認します。

要約(オリジナル)

The article presents an innovative approach to the visualization of multidimensional data, using icons inspired by Chernoff faces. The approach merges classical projection techniques with the assignment of particular data dimensions to mimic features, capitalizing on the natural ability of the human brain to interpret facial expressions. We introduce a semantic division of data dimensions into intuitive and technical categories, assigning the former to avatar features and projecting the latter into a hyperspace of four, or potentially more dimensions. The technique is implemented as a plugin to the dpVision open-source image handling platform. The plugin allows the data to be interactively explored in the form of a swarm of avatars whose position in hyperspace as well as facial features represent various aspects of the data. Sample visualizations, based on synthetic test data as well as the 12-dimensional database on Portuguese Vinho Verde wines, confirm the usefulness of our approach to the analysis of complex data structures.

arxiv情報

著者 Leszek Luchowski,Dariusz Pojda
発行日 2025-05-09 09:42:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC | Visualization of a multidimensional point cloud as a 3D swarm of avatars はコメントを受け付けていません

From Flatland to Space: Teaching Vision-Language Models to Perceive and Reason in 3D

要約

LVLMSの最近の進歩により、視覚言語の理解が向上しましたが、彼らはまだ空間的認識に苦労しており、複雑な3Dシーンについて推論する能力を制限しています。
3D表現をモデルに組み込み、空間的理解を改善する以前のアプローチとは異なり、空間的に関連する画像データを活用することにより、VLMの可能性を解き放つことを目指しています。
この目的のために、3Dグラウンドトゥルースを備えたシーンデータ上に構築された新しい2D空間データ生成と注釈パイプラインを紹介します。
このパイプラインにより、基本的な認識タスクからより複雑な推論タスクに至るまで、さまざまな空間タスクのセットを作成できます。
このパイプラインを活用して、複数のパブリックデータセットで数千のシーンから生成される大規模なデータセットであるSPAR-7Mを構築します。
さらに、既存の空間ベンチマークと比較して空間機能のより包括的な評価を提供するように設計されたベンチマークであるSpar-Benchを紹介し、シングルビューとマルチビューの両方の入力をサポートします。
SPAR-7Mと大規模な2Dデータセットの両方でのトレーニングにより、モデルは2D空間ベンチマークで最先端のパフォーマンスを実現できます。
3Dタスク固有のデータセットでさらに微調整すると、競争結果が得られ、空間推論の強化におけるデータセットの有効性を強調します。

要約(オリジナル)

Recent advances in LVLMs have improved vision-language understanding, but they still struggle with spatial perception, limiting their ability to reason about complex 3D scenes. Unlike previous approaches that incorporate 3D representations into models to improve spatial understanding, we aim to unlock the potential of VLMs by leveraging spatially relevant image data. To this end, we introduce a novel 2D spatial data generation and annotation pipeline built upon scene data with 3D ground-truth. This pipeline enables the creation of a diverse set of spatial tasks, ranging from basic perception tasks to more complex reasoning tasks. Leveraging this pipeline, we construct SPAR-7M, a large-scale dataset generated from thousands of scenes across multiple public datasets. In addition, we introduce SPAR-Bench, a benchmark designed to offer a more comprehensive evaluation of spatial capabilities compared to existing spatial benchmarks, supporting both single-view and multi-view inputs. Training on both SPAR-7M and large-scale 2D datasets enables our models to achieve state-of-the-art performance on 2D spatial benchmarks. Further fine-tuning on 3D task-specific datasets yields competitive results, underscoring the effectiveness of our dataset in enhancing spatial reasoning.

arxiv情報

著者 Jiahui Zhang,Yurui Chen,Yanpeng Zhou,Yueming Xu,Ze Huang,Jilin Mei,Junhui Chen,Yu-Jie Yuan,Xinyue Cai,Guowei Huang,Xingyue Quan,Hang Xu,Li Zhang
発行日 2025-05-09 09:48:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | From Flatland to Space: Teaching Vision-Language Models to Perceive and Reason in 3D はコメントを受け付けていません

AnySat: One Earth Observation Model for Many Resolutions, Scales, and Modalities

要約

地理空間モデルは、解像度、スケール、およびモダリティの観点から、地球観測データの多様性に適応する必要があります。
ただし、既存のアプローチでは、固定された入力構成が期待されており、実際の適用性が制限されます。
AnySATを提案します。AnySATは、ジョイントの埋め込み予測アーキテクチャ(JEPA)とスケール適応空間エンコーダに基づいたマルチモーダルモデルであり、非常に不均一なデータに関する単一のモデルを自己補助的な方法でトレーニングできるようにします。
この統一されたアプローチの利点を示すために、さまざまな特性と11ドルの異なるセンサーを備えた5つのマルチモーダルデータセットのコレクションであるGeoPlexをコンパイルします。
次に、これらの多様なデータセットで同時に単一の強力なモデルをトレーニングします。
微調整またはプローブされたら、陸地カバーマッピング、樹木種の識別、作物の種類の分類、変化の検出、気候タイプの分類、洪水のセグメンテーション、燃焼スカー、および腐敗など、さまざまな環境監視タスクにわたるジェオペックスのテストセットと6つの外部データセットの最先端の結果に達します。
コードとモデルは、https://github.com/gastruc/anysatで入手できます。

要約(オリジナル)

Geospatial models must adapt to the diversity of Earth observation data in terms of resolutions, scales, and modalities. However, existing approaches expect fixed input configurations, which limits their practical applicability. We propose AnySat, a multimodal model based on joint embedding predictive architecture (JEPA) and scale-adaptive spatial encoders, allowing us to train a single model on highly heterogeneous data in a self-supervised manner. To demonstrate the advantages of this unified approach, we compile GeoPlex, a collection of 5 multimodal datasets with varying characteristics and $11$ distinct sensors. We then train a single powerful model on these diverse datasets simultaneously. Once fine-tuned or probed, we reach state-of-the-art results on the test sets of GeoPlex and for 6 external datasets across various environment monitoring tasks: land cover mapping, tree species identification, crop type classification, change detection, climate type classification, and segmentation of flood, burn scar, and deforestation. The code and models are available at https://github.com/gastruc/AnySat.

arxiv情報

著者 Guillaume Astruc,Nicolas Gonthier,Clement Mallet,Loic Landrieu
発行日 2025-05-09 09:50:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | AnySat: One Earth Observation Model for Many Resolutions, Scales, and Modalities はコメントを受け付けていません

Image space formalism of convolutional neural networks for k-space interpolation

要約

目的:スキャン固有の堅牢な人工ニューラルネットワークによる画像再構成のノイズの回復力(RAKI)は、Kスペースの非線形活性化にリンクされています。
この関係をより深く理解するために、ノイズ伝播を分析的に分析し、画像の再構築機能を特定して特性化し、人間の読み取り可能な方法での非線形活性化の役割を説明するために、Rakiの画像空間形式が導入されます。
方法:Raki推論の画像空間形式は、K-Spaceの非線形活性化を活性化マスクを使用した要素ごとの乗算として表現することで採用され、画像空間の畳み込みに変換されます。
エイリアスされたコイル画像に対して、脱アライア化されたコイル結合画像のヤコビアンは代数的に表現でき、したがって、ノイズ増幅は分析的に定量化されます(Gファクターマップ)。
漏れやすい勾配の勾配パラメーターを介して再構築モデルの非線形性の程度を制御することにより、ノイズ回復力の非線形性の役割を分析します。
結果:分析Gファクターマップは、モンテカルロシミュレーションおよびin vivo脳画像の自動分化アプローチから得られたものと対応しています。
見かけのぼやけおよびコントラスト損失アーティファクトは、ノイズの回復力の強化の影響として特定されています。
これらの残留アーティファクトは、トレーニングデータが限られている場合にモデルの非線形性の程度(ティコノフのような正規化)を調整することにより、ノイズの回復力に対して取引できます。
画像空間のアクティブ化の検査により、潜在的なセンターアーティファクトにつながる自己相関パターンが明らかになります。
結論:Rakiのイメージ空間形式は、分析的な定量的ノイズプロパゲーション分析と、K空間における非線形活性化関数の効果のヒューマン読み取り可能な視覚化の手段を提供します。

要約(オリジナル)

Purpose: Noise resilience in image reconstructions by scan-specific robust artificial neural networks for k-space interpolation (RAKI) is linked to nonlinear activations in k-space. To gain a deeper understanding of this relationship, an image space formalism of RAKI is introduced for analyzing noise propagation analytically, identifying and characterizing image reconstruction features and to describe the role of nonlinear activations in a human readable manner. Methods: The image space formalism for RAKI inference is employed by expressing nonlinear activations in k-space as element-wise multiplications with activation masks, which transform into convolutions in image space. Jacobians of the de-aliased, coil-combined image relative to the aliased coil images can be expressed algebraically, and thus, the noise amplification is quantified analytically (g-factor maps). We analyze the role of nonlinearity for noise resilience by controlling the degree of nonlinearity in the reconstruction model via the negative slope parameter in leaky ReLU. Results: The analytical g-factor maps correspond with those obtained from Monte Carlo simulations and from an auto differentiation approach for in vivo brain images. Apparent blurring and contrast loss artifacts are identified as implications of enhanced noise resilience. These residual artifacts can be traded against noise resilience by adjusting the degree of nonlinearity in the model (Tikhonov-like regularization) in case of limited training data. The inspection of image space activations reveals an autocorrelation pattern leading to a potential center artifact. Conclusion: The image space formalism of RAKI provides the means for analytical quantitative noisepropagation analysis and human-readable visualization of the effects of the nonlinear activation functions in k-space.

arxiv情報

著者 Peter Dawood,Felix Breuer,Istvan Homolya,Maximilian Gram,Peter M. Jakob,Moritz Zaiss,Martin Blaimer
発行日 2025-05-09 10:02:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, physics.med-ph | Image space formalism of convolutional neural networks for k-space interpolation はコメントを受け付けていません

CGTrack: Cascade Gating Network with Hierarchical Feature Aggregation for UAV Tracking

要約

視覚オブジェクト追跡の最近の進歩により、無人航空機(UAV)追跡の機能が著しく改善されました。これは、実際のロボット工学アプリケーションの重要なコンポーネントです。
階層的な軽量ネットワークの統合は、UAV追跡の効率を高めるための一般的な戦略となっていますが、多くの場合、ネットワーク容量の大幅な低下をもたらし、頻繁に閉塞したり、角度を見る際の極端な変化など、UAVシナリオの課題をさらに悪化させます。
これらの問題に対処するために、CGTrackと呼ばれるUAVトラッカーの新しいファミリーを紹介します。これは、明示的かつ暗黙的な手法を組み合わせて、粗からファインフレームワーク内でネットワーク容量を拡大します。
具体的には、最初に、機能の表現を強化しながら最小限の計算コストを発生させながら、深いセマンティックキューを豊富な空間情報と統合することにより、機能の再利用スピリットを活用するためにネットワーク容量を増加させる階層機能カスケード(HFC)モジュールを導入します。
これに基づいて、ゲーティングメカニズムを利用して、以前に拡張された特徴からターゲット指向の座標を分離する新しい軽量ゲートセンターヘッド(LGCH)を設計します。
3つの挑戦的なUAV追跡ベンチマークに関する広範な実験は、CGTRACKが最新のパフォーマンスを達成しながら速く実行することを示しています。
コードはhttps://github.com/nightwatch-fox11/cgtrackで入手できます。

要約(オリジナル)

Recent advancements in visual object tracking have markedly improved the capabilities of unmanned aerial vehicle (UAV) tracking, which is a critical component in real-world robotics applications. While the integration of hierarchical lightweight networks has become a prevalent strategy for enhancing efficiency in UAV tracking, it often results in a significant drop in network capacity, which further exacerbates challenges in UAV scenarios, such as frequent occlusions and extreme changes in viewing angles. To address these issues, we introduce a novel family of UAV trackers, termed CGTrack, which combines explicit and implicit techniques to expand network capacity within a coarse-to-fine framework. Specifically, we first introduce a Hierarchical Feature Cascade (HFC) module that leverages the spirit of feature reuse to increase network capacity by integrating the deep semantic cues with the rich spatial information, incurring minimal computational costs while enhancing feature representation. Based on this, we design a novel Lightweight Gated Center Head (LGCH) that utilizes gating mechanisms to decouple target-oriented coordinates from previously expanded features, which contain dense local discriminative information. Extensive experiments on three challenging UAV tracking benchmarks demonstrate that CGTrack achieves state-of-the-art performance while running fast. Code will be available at https://github.com/Nightwatch-Fox11/CGTrack.

arxiv情報

著者 Weihong Li,Xiaoqiong Liu,Heng Fan,Libo Zhang
発行日 2025-05-09 10:27:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CGTrack: Cascade Gating Network with Hierarchical Feature Aggregation for UAV Tracking はコメントを受け付けていません

Achieving 3D Attention via Triplet Squeeze and Excitation Block

要約

Convnextとそのバリアントの出現により、視力課題のCNNベースのモデルの概念的および構造的適合性が再確認され、一般的な画像分類および表現表現認識(FER)の主要なプレーヤーとしてそれらを再確立します。
このホワイトペーパーでは、トリプレットの注意と4つの異なるバリアントのスクイーズアンドエクステーション(Tripse)を組み合わせた新しい注意メカニズムを組み込むことにより、これらの進歩に基づいた新しいモデルのセットを提案します。
これらのバリアントをResNet18、Densenet、およびConvnextアーキテクチャに適用して、汎用性と影響を検証することにより、これらのバリアントの有効性を実証します。
私たちの研究は、これらのCNNモデルにトリップブロックを組み込むことで、特にConvnextアーキテクチャのパフォーマンスが向上し、その有用性を示すことが示されています。
4つのデータセットで提案されたメカニズムと関連モデル、すなわちCIFAR100、Imagenet、FER2013、およびTripse with TripseのConvnextが\ TextBFの精度で最先端の結果を達成し、FER2013 Datasetの\ TextBF {78.27 \%}の精度を達成します。

要約(オリジナル)

The emergence of ConvNeXt and its variants has reaffirmed the conceptual and structural suitability of CNN-based models for vision tasks, re-establishing them as key players in image classification in general, and in facial expression recognition (FER) in particular. In this paper, we propose a new set of models that build on these advancements by incorporating a new set of attention mechanisms that combines Triplet attention with Squeeze-and-Excitation (TripSE) in four different variants. We demonstrate the effectiveness of these variants by applying them to the ResNet18, DenseNet and ConvNext architectures to validate their versatility and impact. Our study shows that incorporating a TripSE block in these CNN models boosts their performances, particularly for the ConvNeXt architecture, indicating its utility. We evaluate the proposed mechanisms and associated models across four datasets, namely CIFAR100, ImageNet, FER2013 and AffectNet datasets, where ConvNext with TripSE achieves state-of-the-art results with an accuracy of \textbf{78.27\%} on the popular FER2013 dataset, a new feat for this dataset.

arxiv情報

著者 Maan Alhazmi,Abdulrahman Altahhan
発行日 2025-05-09 10:36:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Achieving 3D Attention via Triplet Squeeze and Excitation Block はコメントを受け付けていません

Efficient Quantum Convolutional Neural Networks for Image Classification: Overcoming Hardware Constraints

要約

古典的な畳み込みニューラルネットワーク(CNN)は画像分類に革命をもたらしましたが、量子コンピューティングの出現は、ニューラルネットワークアーキテクチャを強化するための新しい機会を提供します。
量子CNNS(QCNNS)量子機械的特性を活用し、古典的なアプローチを上回る可能性を保持します。
ただし、現在の騒々しい中級スケールQuantum(NISQ)デバイスに関する実装は、ハードウェアの制限により依然として困難です。
私たちの研究では、入力の次元を大幅に削減するエンコードスキームを導入することにより、この課題に対処します。
49キュビットを備えたプリミティブなQCNNアーキテクチャが28ドル\タイム28 $ピクセルMnist画像を直接処理するのに十分であり、古典的な次元削減前処理の必要性を排除することを実証します。
さらに、QCNNの構成要素、パラメーター化された量子回路(PQC)を識別するために、表現性、絡み合い、および複雑さの特性に基づいた自動フレームワークを提案します。
私たちのアプローチは、ハイブリッドQCNNと古典的なCNNの両方と比較して、同様のパラメーターカウントで精度と収束速度の利点を示しています。
IBMのHeron R2量子プロセッサに関する実験を検証し、96.08 \%$分類の精度を達成し、同一のトレーニング条件下で従来のアプローチの71.74 \%$ $ベンチマークを上回りました。
これらの結果は、実際の量子ハードウェアに関する画像分類の最初の実装の1つであり、この領域の量子コンピューティングの可能性を検証します。

要約(オリジナル)

While classical convolutional neural networks (CNNs) have revolutionized image classification, the emergence of quantum computing presents new opportunities for enhancing neural network architectures. Quantum CNNs (QCNNs) leverage quantum mechanical properties and hold potential to outperform classical approaches. However, their implementation on current noisy intermediate-scale quantum (NISQ) devices remains challenging due to hardware limitations. In our research, we address this challenge by introducing an encoding scheme that significantly reduces the input dimensionality. We demonstrate that a primitive QCNN architecture with 49 qubits is sufficient to directly process $28\times 28$ pixel MNIST images, eliminating the need for classical dimensionality reduction pre-processing. Additionally, we propose an automated framework based on expressibility, entanglement, and complexity characteristics to identify the building blocks of QCNNs, parameterized quantum circuits (PQCs). Our approach demonstrates advantages in accuracy and convergence speed with a similar parameter count compared to both hybrid QCNNs and classical CNNs. We validated our experiments on IBM’s Heron r2 quantum processor, achieving $96.08\%$ classification accuracy, surpassing the $71.74\%$ benchmark of traditional approaches under identical training conditions. These results represent one of the first implementations of image classifications on real quantum hardware and validate the potential of quantum computing in this area.

arxiv情報

著者 Peter Röseler,Oliver Schaudt,Helmut Berg,Christian Bauckhage,Matthias Koch
発行日 2025-05-09 11:09:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, quant-ph | Efficient Quantum Convolutional Neural Networks for Image Classification: Overcoming Hardware Constraints はコメントを受け付けていません

Leveraging Automatic CAD Annotations for Supervised Learning in 3D Scene Understanding

要約

多くのアプリケーションでは、高レベルの3Dシーンの理解が不可欠です。
ただし、正確な3Dアノテーションを生成するという課題により、深い学習モデルの開発が困難になります。
合成CADモデルの自動検索における最近の進歩に目を向け、そのような方法によって生成されたデータは、監督された深い学習モデルをトレーニングするための高品質の地上真理として使用できることを示します。
より正確には、9DポーズとCADモデルを使用して、Scannetシーンのオブジェクトを自動的に注釈するために以前に使用されていたパイプラインと同様のパイプラインを使用します。
今回は、以前はそのような注釈が不足していた最近のScannet ++ V1データセットに適用しました。
私たちの調査結果は、これらの自動化された注釈で深い学習モデルをトレーニングすることが可能であることが可能であることを示していますが、結果のモデルは手動で注釈付きのデータでトレーニングされたモデルよりも優れています。
これは、ポイントクラウドの完了とシングルビューCADモデルの取得とアラインメントの2つの異なるタスクで検証します。
私たちの結果は、自動3Dアノテーションの可能性を強調して、モデルのパフォーマンスを向上させながら、注釈コストを大幅に削減します。
3Dシーンの理解における将来の研究をサポートするために、訓練されたモデルとともに、scannotate ++と呼ばれる注釈をリリースします。

要約(オリジナル)

High-level 3D scene understanding is essential in many applications. However, the challenges of generating accurate 3D annotations make development of deep learning models difficult. We turn to recent advancements in automatic retrieval of synthetic CAD models, and show that data generated by such methods can be used as high-quality ground truth for training supervised deep learning models. More exactly, we employ a pipeline akin to the one previously used to automatically annotate objects in ScanNet scenes with their 9D poses and CAD models. This time, we apply it to the recent ScanNet++ v1 dataset, which previously lacked such annotations. Our findings demonstrate that it is not only possible to train deep learning models on these automatically-obtained annotations but that the resulting models outperform those trained on manually annotated data. We validate this on two distinct tasks: point cloud completion and single-view CAD model retrieval and alignment. Our results underscore the potential of automatic 3D annotations to enhance model performance while significantly reducing annotation costs. To support future research in 3D scene understanding, we will release our annotations, which we call SCANnotate++, along with our trained models.

arxiv情報

著者 Yuchen Rao,Stefan Ainetter,Sinisa Stekovic,Vincent Lepetit,Friedrich Fraundorfer
発行日 2025-05-09 11:32:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Leveraging Automatic CAD Annotations for Supervised Learning in 3D Scene Understanding はコメントを受け付けていません

Foundation Models For Seismic Data Processing: An Extensive Review

要約

地震加工は、生データをさまざまな地球科学アプリケーションに極めて高品質の地下画像に変換する上で重要な役割を果たします。
その重要性にもかかわらず、従来の地震処理技術は、ノイズの多いデータや損傷したデータや、マニュアル、時間のかかるワークフローへの依存などの課題に直面しています。
深い学習アプローチの出現により、効果的でユーザーフレンドリーな代替案が導入されましたが、これらの深い学習アプローチの多くは、合成データセットと特殊なニューラルネットワークに依存しています。
最近、自然なイメージ領域での成功により、基礎モデルが地震ドメインで牽引力を獲得しました。
したがって、3つの地震処理タスクでの自然画像基礎モデルの適用、Demultiple、補間、および除去を調査します。
パフォーマンスと効率性に対するトレーニング前の手法やニューラルネットワークアーキテクチャなど、さまざまなモデル特性の影響を評価します。
単一の地震基盤モデルを提案するのではなく、さまざまな自然画像基礎モデルを批判的に調べ、将来の探査のための有望な候補者を提案します。

要約(オリジナル)

Seismic processing plays a crucial role in transforming raw data into high-quality subsurface images, pivotal for various geoscience applications. Despite its importance, traditional seismic processing techniques face challenges such as noisy and damaged data and the reliance on manual, time-consuming workflows. The emergence of deep learning approaches has introduced effective and user-friendly alternatives, yet many of these deep learning approaches rely on synthetic datasets and specialized neural networks. Recently, foundation models have gained traction in the seismic domain, due to their success in the natural image domain. Therefore, we investigate the application of natural image foundation models on the three seismic processing tasks: demultiple, interpolation, and denoising. We evaluate the impact of different model characteristics, such as pre-training technique and neural network architecture, on performance and efficiency. Rather than proposing a single seismic foundation model, we critically examine various natural image foundation models and suggest some promising candidates for future exploration.

arxiv情報

著者 Fabian Fuchs,Mario Ruben Fernandez,Norman Ettrich,Janis Keuper
発行日 2025-05-09 11:38:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Foundation Models For Seismic Data Processing: An Extensive Review はコメントを受け付けていません

FF-PNet: A Pyramid Network Based on Feature and Field for Brain Image Registration

要約

近年、変形可能な医療画像登録手法が大きな進歩を遂げています。
ただし、既存のモデルには、粗粒と細かい特徴の並列抽出の効率がまだありません。
これに対処するために、機能と変形フィールド(FF-PNET)に基づいて新しいピラミッド登録ネットワークを構築します。
粗粒の特徴抽出のために、残留特徴融合モジュール(RFFM)を設計し、細粒画像変形のために、残留変形フィールド融合モジュール(RDFFM)を提案します。
これら2つのモジュールの並列操作により、モデルは複雑な画像の変形を効果的に処理できます。
FF-PNETのエンコーディング段階は、注意メカニズムや多層パーセプロンなしで従来の畳み込みニューラルネットワークのみを採用していることを強調する価値がありますが、登録精度の顕著な改善を実現し、RFFMとRDFFMの優れた機能デコード機能を完全に実証しています。
LPBAおよびOASISデータセットで広範な実験を実施しました。
結果は、私たちのネットワークが、サイコロの類似性係数などのメトリックの一般的な方法よりも一貫して優れていることを示しています。

要約(オリジナル)

In recent years, deformable medical image registration techniques have made significant progress. However, existing models still lack efficiency in parallel extraction of coarse and fine-grained features. To address this, we construct a new pyramid registration network based on feature and deformation field (FF-PNet). For coarse-grained feature extraction, we design a Residual Feature Fusion Module (RFFM), for fine-grained image deformation, we propose a Residual Deformation Field Fusion Module (RDFFM). Through the parallel operation of these two modules, the model can effectively handle complex image deformations. It is worth emphasizing that the encoding stage of FF-PNet only employs traditional convolutional neural networks without any attention mechanisms or multilayer perceptrons, yet it still achieves remarkable improvements in registration accuracy, fully demonstrating the superior feature decoding capabilities of RFFM and RDFFM. We conducted extensive experiments on the LPBA and OASIS datasets. The results show our network consistently outperforms popular methods in metrics like the Dice Similarity Coefficient.

arxiv情報

著者 Ying Zhang,Shuai Guo,Chenxi Sun,Yuchen Zhu,Jinhai Xiang
発行日 2025-05-09 11:41:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IR | FF-PNet: A Pyramid Network Based on Feature and Field for Brain Image Registration はコメントを受け付けていません