EV-Flying: an Event-based Dataset for In-The-Wild Recognition of Flying Objects

要約

航空物体の監視は、セキュリティ、野生生物の保全、環境研究に不可欠です。
従来のRGBベースのアプローチは、特に昆虫やドローンなどの小さな飛行エンティティにとって、スケールバリエーション、モーションブラー、高速オブジェクトの動きなどの課題と闘っています。
この作業では、飛行物体、特に長期的な予測可能なパターンに従わない可能性のある動物を検出および認識するためのイベントベースのビジョンの可能性を探ります。
イベントカメラは、高い時間分解能、低レイテンシ、およびモーションブラーに対する堅牢性を提供し、このタスクに適しています。
飛行物体のイベントベースのデータセットであるEV-Flyingを紹介します。これは、手動で注釈付きの鳥、昆虫、ドローンが時空間の境界ボックスとトラックアイデンティティを備えたドローンを含むことを紹介します。
非同期イベントストリームを効果的に処理するために、ポイントネットに触発された軽量アーキテクチャを活用するポイントベースのアプローチを採用しています。
私たちの研究では、ポイントクラウドベースのイベント表現を使用して、飛行オブジェクトの分類を調査しています。
提案されたデータセットと方法論は、実際のシナリオでより効率的で信頼性の高い空中オブジェクト認識への道を開きます。

要約(オリジナル)

Monitoring aerial objects is crucial for security, wildlife conservation, and environmental studies. Traditional RGB-based approaches struggle with challenges such as scale variations, motion blur, and high-speed object movements, especially for small flying entities like insects and drones. In this work, we explore the potential of event-based vision for detecting and recognizing flying objects, in particular animals that may not follow short and long-term predictable patters. Event cameras offer high temporal resolution, low latency, and robustness to motion blur, making them well-suited for this task. We introduce EV-Flying, an event-based dataset of flying objects, comprising manually annotated birds, insects and drones with spatio-temporal bounding boxes and track identities. To effectively process the asynchronous event streams, we employ a point-based approach leveraging lightweight architectures inspired by PointNet. Our study investigates the classification of flying objects using point cloud-based event representations. The proposed dataset and methodology pave the way for more efficient and reliable aerial object recognition in real-world scenarios.

arxiv情報

著者 Gabriele Magrini,Federico Becattini,Giovanni Colombo,Pietro Pala
発行日 2025-06-04 15:14:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | EV-Flying: an Event-based Dataset for In-The-Wild Recognition of Flying Objects はコメントを受け付けていません

Video Deblurring with Deconvolution and Aggregation Networks

要約

シングルイメージのデブリングとは対照的に、ビデオデブリングには、ターゲットフレームをDeBlurに使用できるという利点があります。
ただし、既存のビデオデブラリングアルゴリズムは、多くの場合、近隣フレームを適切に使用できず、最適ではないパフォーマンスが発生します。
このホワイトペーパーでは、近隣フレームの情報をよく利用するビデオデブラーのデコンボリューションと集約ネットワーク(DAN)を提案します。
DANでは、デコンボリューション戦略と集約戦略の両方が、デコンボリューションスキームの3つのサブネットワーク(PPN)とアライメントベースのデコンボリューションネットワーク(ABDN)を通じて達成されます。
集約スキームのフレーム集約ネットワーク(FAN)。
デコンボリューション部分では、ぼやけた入力は、非ローカル操作を備えたPPNによって最初に前処理されます。
次に、PPNからの出力フレームは、フレームのアライメントに基づいてABDNによって除去されます。
ファンでは、デコンボリューション部分からのこれらの脱脂質フレームは、ピクセルごとのシャープネスを推測する信頼性マップに従って潜在フレームに結合されます。
3つのサブネットワークの適切な組み合わせは、近隣フレームを適切に使用することにより、ビデオデブラーで好ましいパフォーマンスを実現できます。
実験では、提案されたDANは、パブリックデータセットの定量的評価と定性的評価の両方を通じて、既存の最先端の方法よりも優れていることが実証されました。

要約(オリジナル)

In contrast to single-image deblurring, video deblurring has the advantage that neighbor frames can be utilized to deblur a target frame. However, existing video deblurring algorithms often fail to properly employ the neighbor frames, resulting in sub-optimal performance. In this paper, we propose a deconvolution and aggregation network (DAN) for video deblurring that utilizes the information of neighbor frames well. In DAN, both deconvolution and aggregation strategies are achieved through three sub-networks: the preprocessing network (PPN) and the alignment-based deconvolution network (ABDN) for the deconvolution scheme; the frame aggregation network (FAN) for the aggregation scheme. In the deconvolution part, blurry inputs are first preprocessed by the PPN with non-local operations. Then, the output frames from the PPN are deblurred by the ABDN based on the frame alignment. In the FAN, these deblurred frames from the deconvolution part are combined into a latent frame according to reliability maps which infer pixel-wise sharpness. The proper combination of three sub-networks can achieve favorable performance on video deblurring by using the neighbor frames suitably. In experiments, the proposed DAN was demonstrated to be superior to existing state-of-the-art methods through both quantitative and qualitative evaluations on the public datasets.

arxiv情報

著者 Giyong Choi,HyunWook Park
発行日 2025-06-04 15:19:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Video Deblurring with Deconvolution and Aggregation Networks はコメントを受け付けていません

Towards generating more interpretable counterfactuals via concept vectors: a preliminary study on chest X-rays

要約

医療イメージングモデルを展開するための重要なステップは、臨床的知識と解釈可能性との調整を確保することです。
臨床概念を生成モデルの潜在空間にマッピングすることに焦点を当て、概念活性化ベクトル(CAVS)を識別します。
Simple Reconstruction Autoencoderを使用して、明示的なラベルトレーニングなしで、ユーザー定義の概念を画像レベルの機能にリンクします。
抽出された概念はデータセット全体で安定しており、臨床的に関連する機能を強調する視覚的な説明を可能にします。
概念の方向に沿って潜在空間を横断することにより、特定の臨床的特徴を誇張または減少させる反事実を生成します。
胸部X線の予備的な結果は、心臓腫瘍のような大規模な病理学の有望であることを示していますが、再構築の限界のために小さな病理は困難なままです。
ベースラインを上回ることはありませんが、このアプローチは、臨床知識に合わせた解釈可能な概念ベースの説明への道を提供します。

要約(オリジナル)

An essential step in deploying medical imaging models is ensuring alignment with clinical knowledge and interpretability. We focus on mapping clinical concepts into the latent space of generative models to identify Concept Activation Vectors (CAVs). Using a simple reconstruction autoencoder, we link user-defined concepts to image-level features without explicit label training. The extracted concepts are stable across datasets, enabling visual explanations that highlight clinically relevant features. By traversing latent space along concept directions, we produce counterfactuals that exaggerate or reduce specific clinical features. Preliminary results on chest X-rays show promise for large pathologies like cardiomegaly, while smaller pathologies remain challenging due to reconstruction limits. Although not outperforming baselines, this approach offers a path toward interpretable, concept-based explanations aligned with clinical knowledge.

arxiv情報

著者 Bulat Maksudov,Kathleen Curran,Alessandra Mileo
発行日 2025-06-04 15:23:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | Towards generating more interpretable counterfactuals via concept vectors: a preliminary study on chest X-rays はコメントを受け付けていません

Optimal Transport-based Domain Alignment as a Preprocessing Step for Federated Learning

要約

Federated Learning(FL)は、中央サーバーとローカルデータの共有を回避する機械学習のサブフィールドであり、プライバシーとスケーラビリティを向上させることができます。
データを統合できないと、データセットの不均衡と呼ばれる一意の問題につながります。ネットワーク内のエージェントは、予測を学ぼうとしているラベルの平等な表現を持っていません。
FLでは、ローカルで訓練されたモデルを不均衡なデータセットと融合させると、グローバルモデルの凝集のパフォーマンスが低下し、更新されたローカルモデルの品質と分散エージェントの決定の精度が低下する可能性があります。
この作業では、エッジデバイスに沿ったデータの分布の不一致を最小化することにより、データセットを整列させる最適な輸送ベースの前処理アルゴリズムを導入します。
チャネルごとの平均を計算するときに、Wasserstein Barycentersを活用することでこれを達成します。
これらのバリセントターは、ターゲットRGBスペースを集合的に生成する信頼できる中央サーバーで収集されます。
このターゲット空間にデータセットを投影することにより、グローバルレベルでの分布の矛盾を最小限に抑え、サンプル全体の分散の最小化により学習プロセスを促進します。
CIFAR-10データセットを介して提案されたアプローチの機能を実証します。ここでは、より少ない通信ラウンドでより高い程度の一般化に到達する能力を示しています。

要約(オリジナル)

Federated learning (FL) is a subfield of machine learning that avoids sharing local data with a central server, which can enhance privacy and scalability. The inability to consolidate data leads to a unique problem called dataset imbalance, where agents in a network do not have equal representation of the labels one is trying to learn to predict. In FL, fusing locally-trained models with unbalanced datasets may deteriorate the performance of global model aggregation, and reduce the quality of updated local models and the accuracy of the distributed agents’ decisions. In this work, we introduce an Optimal Transport-based preprocessing algorithm that aligns the datasets by minimizing the distributional discrepancy of data along the edge devices. We accomplish this by leveraging Wasserstein barycenters when computing channel-wise averages. These barycenters are collected in a trusted central server where they collectively generate a target RGB space. By projecting our dataset towards this target space, we minimize the distributional discrepancy on a global level, which facilitates the learning process due to a minimization of variance across the samples. We demonstrate the capabilities of the proposed approach over the CIFAR-10 dataset, where we show its capability of reaching higher degrees of generalization in fewer communication rounds.

arxiv情報

著者 Luiz Manella Pereira,M. Hadi Amini
発行日 2025-06-04 15:35:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Optimal Transport-based Domain Alignment as a Preprocessing Step for Federated Learning はコメントを受け付けていません

Point Cloud Quality Assessment Using the Perceptual Clustering Weighted Graph (PCW-Graph) and Attention Fusion Network

要約

参照モデルのない点群品質評価(NR-PCQA)は、参照モデルが利用できない実世界のアプリケーションで3Dコンテンツを評価するために不可欠です。

要約(オリジナル)

No-Reference Point Cloud Quality Assessment (NR-PCQA) is critical for evaluating 3D content in real-world applications where reference models are unavailable.

arxiv情報

著者 Abdelouahed Laazoufi,Mohammed El Hassouni,Hocine Cherifi
発行日 2025-06-04 15:44:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Point Cloud Quality Assessment Using the Perceptual Clustering Weighted Graph (PCW-Graph) and Attention Fusion Network はコメントを受け付けていません

Multimodal Tabular Reasoning with Privileged Structured Information

要約

表形式の推論には、表形式データに対するマルチステップ情報抽出と論理的推論が含まれます。
最近の進歩により、構造化されたテーブル上の推論のために大規模な言語モデル(LLM)が活用されていますが、このような高品質のテキスト表現は、通常、画像として表示される現実世界の設定では利用できないことがよくあります。
このホワイトペーパーでは、テーブル画像からの表形式の推論のタスクに取り組み、マルチモーダルの大手言語モデル(MLLM)を強化するためにトレーニング中に利用可能な特権構造情報を活用します。
重要な課題は、構造化された情報を視覚的表現と正確に調整することの複雑さにあり、入力モダリティギャップにもかかわらず、構造化された推論スキルをMLLMに効果的に転送することにあります。
これらに対処するために、特権構造化されたテーブルを使用したマルチモーダルの表形式の推論の新しいフレームワークである、ブリッジされた情報({\ scターボ})を使用して表形式の推論を紹介します。
{\ scターボ} deepseek-r1に基づいた構造対象の推論トレースジェネレーターの恩恵を受け、高品質のモダリティブリッジデータに貢献しています。
これに基づいて、{\ scターボ}は有利な推論パスを繰り返し生成および選択し、モデルの表形式の推論能力をさらに強化します。
実験結果は、限られた($ 9 $ k)データで、{\ scターボ}が複数のデータセットで最新のパフォーマンス($+7.2 \%$ vs.以前のSOTA)を達成することを示しています。

要約(オリジナル)

Tabular reasoning involves multi-step information extraction and logical inference over tabular data. While recent advances have leveraged large language models (LLMs) for reasoning over structured tables, such high-quality textual representations are often unavailable in real-world settings, where tables typically appear as images. In this paper, we tackle the task of tabular reasoning from table images, leveraging privileged structured information available during training to enhance multimodal large language models (MLLMs). The key challenges lie in the complexity of accurately aligning structured information with visual representations, and in effectively transferring structured reasoning skills to MLLMs despite the input modality gap. To address these, we introduce TabUlar Reasoning with Bridged infOrmation ({\sc Turbo}), a new framework for multimodal tabular reasoning with privileged structured tables. {\sc Turbo} benefits from a structure-aware reasoning trace generator based on DeepSeek-R1, contributing to high-quality modality-bridged data. On this basis, {\sc Turbo} repeatedly generates and selects the advantageous reasoning paths, further enhancing the model’s tabular reasoning ability. Experimental results demonstrate that, with limited ($9$k) data, {\sc Turbo} achieves state-of-the-art performance ($+7.2\%$ vs. previous SOTA) across multiple datasets.

arxiv情報

著者 Jun-Peng Jiang,Yu Xia,Hai-Long Sun,Shiyin Lu,Qing-Guo Chen,Weihua Luo,Kaifu Zhang,De-Chuan Zhan,Han-Jia Ye
発行日 2025-06-04 15:46:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Multimodal Tabular Reasoning with Privileged Structured Information はコメントを受け付けていません

MammAlps: A multi-view video behavior monitoring dataset of wild mammals in the Swiss Alps

要約

野生生物の監視は、特に生態系に対する人間の影響の増加に照らして、生態学と理学に不可欠です。
カメラトラップは、生息地中心のセンサーとして浮上しており、最小限の妨害で大規模な野生生物集団の研究を可能にしています。
ただし、注釈付きのビデオデータセットがないため、収集された膨大な量のフィールドワークデータを処理するために必要な強力なビデオ理解モデルの開発が制限されます。
野生動物の行動監視における研究を進めるために、スイス国立公園の9つのカメラトラップからの野生生物行動監視のマルチモーダルおよびマルチビューデータセットであるMammalpsを提示します。
Mammalpsには、オーディオ、2Dセグメンテーションマップ、8.5時間の個々のトラックが種と行動にラベル付けされた8.5時間の個々のトラックを含む14時間以上のビデオが含まれています。
6135の単一動物クリップに基づいて、オーディオ、ビデオ、参照シーンのセグメンテーションマップを入力として使用して、最初の階層およびマルチモーダル動物行動認識ベンチマークを提案します。
さらに、397のマルチビューおよび偽陽性トリガーを含む長期生態学的イベントからの活動、種、個人、および気象条件を特定することを目的とした2番目の生態志向のベンチマークも提案します。
私たちは、両方のタスクが補完的であり、機械学習と生態学の間のギャップを埋めることに貢献することを主張しています。
コードとデータは、https://github.com/eceo-epfl/mammalpsで入手できます

要約(オリジナル)

Monitoring wildlife is essential for ecology and ethology, especially in light of the increasing human impact on ecosystems. Camera traps have emerged as habitat-centric sensors enabling the study of wildlife populations at scale with minimal disturbance. However, the lack of annotated video datasets limits the development of powerful video understanding models needed to process the vast amount of fieldwork data collected. To advance research in wild animal behavior monitoring we present MammAlps, a multimodal and multi-view dataset of wildlife behavior monitoring from 9 camera-traps in the Swiss National Park. MammAlps contains over 14 hours of video with audio, 2D segmentation maps and 8.5 hours of individual tracks densely labeled for species and behavior. Based on 6135 single animal clips, we propose the first hierarchical and multimodal animal behavior recognition benchmark using audio, video and reference scene segmentation maps as inputs. Furthermore, we also propose a second ecology-oriented benchmark aiming at identifying activities, species, number of individuals and meteorological conditions from 397 multi-view and long-term ecological events, including false positive triggers. We advocate that both tasks are complementary and contribute to bridging the gap between machine learning and ecology. Code and data are available at: https://github.com/eceo-epfl/MammAlps

arxiv情報

著者 Valentin Gabeff,Haozhe Qi,Brendan Flaherty,Gencer Sumbül,Alexander Mathis,Devis Tuia
発行日 2025-06-04 15:54:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IR, q-bio.NC, q-bio.QM | MammAlps: A multi-view video behavior monitoring dataset of wild mammals in the Swiss Alps はコメントを受け付けていません

GlobalBuildingAtlas: An Open Global and Complete Dataset of Building Polygons, Heights and LoD1 3D Models

要約

GlobalBuildingatlasを紹介します。GlobalBuildingatlasは、建物のポリゴン、高さ、詳細レベル1(LOD1)3Dビルディングモデルのグローバルかつ完全なカバレッジを提供する公開されているデータセットです。
これは、世界規模で個々の建物レベルで高品質で一貫した、完全な建物データを2Dおよび3D形式で提供する最初のオープンデータセットです。
このデータセットに向けて、機械学習ベースのパイプラインを開発して、それぞれグローバルPlanetscope衛星データからポリゴンと高さ(GBA.heightと呼ばれる)を導き出しました。
また、品質ベースの融合戦略が採用され、既存のオープンビルディングポリゴンを含む既存のオープンビルゴンに基づいた高品質のポリゴン(GBA.Polygonと呼ばれます)を生成しました。
世界中に27億5,000万人以上の建物があるGBA.Polygonは、これまでで最も包括的なデータベースを10億を超える建物で上回っています。
GBA.Heightは、これまでで最も詳細かつ正確なグローバルな3Dビルディングの高さマップを提供し、以前のグローバル製品(90 m)よりも3×3メートル-30倍の空間解像度を達成し、ローカルスケールとグローバルなスケールの両方での建物量の高解像度で信頼できる分析を可能にします。
最後に、結果のGBA.PolygonおよびGBA.HeightからグローバルLOD1ビルディングモデル(GBA.LOD1と呼ばれる)を生成しました。
GBA.LOD1は、予測された高さの26億8,000万の建築インスタンスを含む最初の完全なグローバルLOD1ビルモデルを表しています。つまり、97%以上の高さの完全性があり、異なる大陸で1.5 mから8.9 mの範囲のRMSを達成します。
GlobalBuildingaltasは、身長の精度、包括的なグローバルカバレッジ、豊富な空間的詳細を備えたグローバルな建物の現状に関する新しい洞察を提供します。これは、人々が住んでいる場所と第11番目の持続可能な開発の進歩のより包括的な監視のより良いイラストによって示されるように、前例のない地理空間分析の可能性を解き放ちます。

要約(オリジナル)

We introduce GlobalBuildingAtlas, a publicly available dataset providing global and complete coverage of building polygons, heights and Level of Detail 1 (LoD1) 3D building models. This is the first open dataset to offer high quality, consistent, and complete building data in 2D and 3D form at the individual building level on a global scale. Towards this dataset, we developed machine learning-based pipelines to derive building polygons and heights (called GBA.Height) from global PlanetScope satellite data, respectively. Also a quality-based fusion strategy was employed to generate higher-quality polygons (called GBA.Polygon) based on existing open building polygons, including our own derived one. With more than 2.75 billion buildings worldwide, GBA.Polygon surpasses the most comprehensive database to date by more than 1 billion buildings. GBA.Height offers the most detailed and accurate global 3D building height maps to date, achieving a spatial resolution of 3×3 meters-30 times finer than previous global products (90 m), enabling a high-resolution and reliable analysis of building volumes at both local and global scales. Finally, we generated a global LoD1 building model (called GBA.LoD1) from the resulting GBA.Polygon and GBA.Height. GBA.LoD1 represents the first complete global LoD1 building models, including 2.68 billion building instances with predicted heights, i.e., with a height completeness of more than 97%, achieving RMSEs ranging from 1.5 m to 8.9 m across different continents. With its height accuracy, comprehensive global coverage and rich spatial details, GlobalBuildingAltas offers novel insights on the status quo of global buildings, which unlocks unprecedented geospatial analysis possibilities, as showcased by a better illustration of where people live and a more comprehensive monitoring of the progress on the 11th Sustainable Development Goal of the United Nations.

arxiv情報

著者 Xiao Xiang Zhu,Sining Chen,Fahong Zhang,Yilei Shi,Yuanyuan Wang
発行日 2025-06-04 15:59:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | GlobalBuildingAtlas: An Open Global and Complete Dataset of Building Polygons, Heights and LoD1 3D Models はコメントを受け付けていません

Multi-view Surface Reconstruction Using Normal and Reflectance Cues

要約

特に複雑な反射特性を備えた材料の存在下で、密なビューセットアップなしで、微妙な忠実度の3D表面再構成を達成しながら、細かい詳細を維持しながら、依然として困難なままです。
このペーパーでは、マルチビューの通常およびオプションの反射マップを放射輝度ベースの表面再構成に組み込んだ汎用性のあるフレームワークを紹介します。
私たちのアプローチでは、反射率と表面正常のピクセルごとのジョイントの再パラメーター化を採用しており、シミュレートされたさまざまな照明下での放射線のベクトルとしてそれらを表します。
この定式化により、従来のマルチビューステレオ(MVS)フレームワークや最新のニューラルボリュームレンダリング(NVR)レンダリング(NVR)などの標準表面再構成パイプラインへのシームレスな組み込みが可能になります。
後者と組み合わせて、私たちのアプローチは、勤勉なMV、Luces-MV、SkolTech3Dを含むマルチビューの光メトリックステレオ(MVPS)ベンチマークデータセットで最先端のパフォーマンスを実現します。
特に、私たちの方法は、細かい詳細を再構築し、困難な可視性条件を処理することに優れています。
本論文は、Brumentらによる以前の会議論文の拡張バージョンです。
(コンピュータービジョンとパターン認識に関するIEEE/CVF会議(CVPR)、2024年)の議事録。加速された、より堅牢なアルゴリズムとより広範な経験的評価を特徴としています。
この記事に関連するコードとデータは、https://github.com/robinbruneau/rnb-neus2で入手できます。

要約(オリジナル)

Achieving high-fidelity 3D surface reconstruction while preserving fine details remains challenging, especially in the presence of materials with complex reflectance properties and without a dense-view setup. In this paper, we introduce a versatile framework that incorporates multi-view normal and optionally reflectance maps into radiance-based surface reconstruction. Our approach employs a pixel-wise joint re-parametrization of reflectance and surface normals, representing them as a vector of radiances under simulated, varying illumination. This formulation enables seamless incorporation into standard surface reconstruction pipelines, such as traditional multi-view stereo (MVS) frameworks or modern neural volume rendering (NVR) ones. Combined with the latter, our approach achieves state-of-the-art performance on multi-view photometric stereo (MVPS) benchmark datasets, including DiLiGenT-MV, LUCES-MV and Skoltech3D. In particular, our method excels in reconstructing fine-grained details and handling challenging visibility conditions. The present paper is an extended version of the earlier conference paper by Brument et al. (in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024), featuring an accelerated and more robust algorithm as well as a broader empirical evaluation. The code and data relative to this article is available at https://github.com/RobinBruneau/RNb-NeuS2.

arxiv情報

著者 Robin Bruneau,Baptiste Brument,Yvain Quéau,Jean Mélou,François Bernard Lauze,Jean-Denis Durou,Lilian Calvet
発行日 2025-06-04 16:09:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Multi-view Surface Reconstruction Using Normal and Reflectance Cues はコメントを受け付けていません

A Diffusion-Driven Temporal Super-Resolution and Spatial Consistency Enhancement Framework for 4D MRI imaging

要約

医療イメージングでは、4D MRIが動的な3D視覚化を可能にしますが、空間的解像度と時間分解能のトレードオフには、特に迅速で大振幅の動き中に時間的忠実度を損なう可能性のある長期スキャン時間が必要です。
従来のアプローチは通常、登録ベースの補間に依存して中間フレームを生成します。
しかし、これらの方法は大きな変形と闘い、その結果、regrigistration、アーティファクト、および空間的一貫性が低下します。
これらの課題に対処するために、空間的な一貫性を維持しながら中間フレームを生成する新しいフレームワークであるTSSC-Netを提案します。
速い動きの下での時間的忠実度を改善するために、拡散ベースの時間的超解像度ネットワークは、開始フレームとエンドフレームを重要な参照として使用して中間フレームを生成し、単一の推論ステップで6倍の時間的超解像度を達成します。
さらに、長距離のコンテキスト情報を活用して、クロススライスの不整合から生じる空間的矛盾を効果的に解決し、それにより体積のコヒーレンスを高め、クロススライスエラーを修正する新しい三方方向MAMBAベースの新しいモジュールを導入します。
公共のACDC心臓MRIデータセットと実際の動的4D膝関節データセットで広範な実験が行われました。
結果は、TSSC-Netが構造的な忠実度と空間的一貫性を維持しながら、高速モーションデータから高解像度の動的MRIを生成できることを示しています。

要約(オリジナル)

In medical imaging, 4D MRI enables dynamic 3D visualization, yet the trade-off between spatial and temporal resolution requires prolonged scan time that can compromise temporal fidelity–especially during rapid, large-amplitude motion. Traditional approaches typically rely on registration-based interpolation to generate intermediate frames. However, these methods struggle with large deformations, resulting in misregistration, artifacts, and diminished spatial consistency. To address these challenges, we propose TSSC-Net, a novel framework that generates intermediate frames while preserving spatial consistency. To improve temporal fidelity under fast motion, our diffusion-based temporal super-resolution network generates intermediate frames using the start and end frames as key references, achieving 6x temporal super-resolution in a single inference step. Additionally, we introduce a novel tri-directional Mamba-based module that leverages long-range contextual information to effectively resolve spatial inconsistencies arising from cross-slice misalignment, thereby enhancing volumetric coherence and correcting cross-slice errors. Extensive experiments were performed on the public ACDC cardiac MRI dataset and a real-world dynamic 4D knee joint dataset. The results demonstrate that TSSC-Net can generate high-resolution dynamic MRI from fast-motion data while preserving structural fidelity and spatial consistency.

arxiv情報

著者 Xuanru Zhou,Jiarun Liu,Shoujun Yu,Hao Yang,Cheng Li,Tao Tan,Shanshan Wang
発行日 2025-06-04 16:09:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | A Diffusion-Driven Temporal Super-Resolution and Spatial Consistency Enhancement Framework for 4D MRI imaging はコメントを受け付けていません