SpINR: Neural Volumetric Reconstruction for FMCW Radars

要約

この論文では、周波数調整連続波(FMCW)レーダーデータを使用した体積再構成の新しいフレームワークであるSpinRを紹介します。
バックプロジェクションなどの従来のレーダーイメージング技術は、多くの場合、理想的なシグナルモデルを想定し、密な開口サンプリングを必要とし、解決と一般化の制限につながります。
これらの課題に対処するために、SPINRは、暗黙の神経表現(INR)で周波数ドメインでネイティブに動作する完全に微分可能なフォワードモデルを統合します。
この統合は、FMCWレーダーシステムに固有のビート周波数と散乱距離の線形関係を活用し、シーンジオメトリのより効率的かつ正確な学習を促進します。
さらに、関連する周波数ビンのみの出力を計算することにより、フォワードモデルは、変換前に信号全体を処理するタイムドメインアプローチと比較して、より大きな計算効率を達成します。
広範な実験を通じて、SPISRは古典的なバックプロジェクション方法と既存の学習ベースのアプローチを大幅に上回り、より高い解像度とより正確な複雑なシーンの再構成を達成することを実証します。
この研究は、レーダードメインにおける神経体積再構成の最初の応用を表しており、レーダーベースのイメージングおよび知覚システムにおける将来の研究のための有望な方向性を提供します。

要約(オリジナル)

In this paper, we introduce SpINR, a novel framework for volumetric reconstruction using Frequency-Modulated Continuous-Wave (FMCW) radar data. Traditional radar imaging techniques, such as backprojection, often assume ideal signal models and require dense aperture sampling, leading to limitations in resolution and generalization. To address these challenges, SpINR integrates a fully differentiable forward model that operates natively in the frequency domain with implicit neural representations (INRs). This integration leverages the linear relationship between beat frequency and scatterer distance inherent in FMCW radar systems, facilitating more efficient and accurate learning of scene geometry. Additionally, by computing outputs for only the relevant frequency bins, our forward model achieves greater computational efficiency compared to time-domain approaches that process the entire signal before transformation. Through extensive experiments, we demonstrate that SpINR significantly outperforms classical backprojection methods and existing learning-based approaches, achieving higher resolution and more accurate reconstructions of complex scenes. This work represents the first application of neural volumetic reconstruction in the radar domain, offering a promising direction for future research in radar-based imaging and perception systems.

arxiv情報

著者 Harshvardhan Takawale,Nirupam Roy
発行日 2025-04-25 15:33:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SpINR: Neural Volumetric Reconstruction for FMCW Radars はコメントを受け付けていません

Nearly isotropic segmentation for medial temporal lobe subregions in multi-modality MRI

要約

脳MRIにおける内側側頭葉(MTL)サブ領域の形態計測は、アルツハイマー病やその他の関連状態に対する敏感なバイオマーカーです。
高い面での分解能を持つT2強調(T2W)MRIは、海馬のコントラストが高いため、海馬サブフィールドをセグメント化するために広く使用されていますが、平面外分解能が低いため、小領域の厚さ測定の精度が低下します。
この問題に対処するために、T2W MRIに画像とラベルのアップサンプリングと高解像度セグメンテーションを組み込んだほぼ等方性セグメンテーションパイプラインを開発しました。
第一に、29人に由来する既存の異方性アトラスに基づいて、高解像度のアトラスが作成されました。
ATLASのT1加重画像とT2W画像の両方を、非ローカル平均アプローチを使用して、元の解像度からほぼ等方性解像度0.4×0.4×0.52mm3にアップサンプリングされました。
アトラス内の手動セグメンテーションは、UNETベースのニューラルネットワークを使用してこの解像度に合わせてアップサンプリングされました。UNETベースのニューラルネットワークは、手動セグメンテーションを備えた高解像度のvivoおよび低解像度の異方性MRIの両方で構成されるコホートで訓練されました。
第二に、このほぼ等方性アトラス内で、多モダリティのディープラーニングベースのセグメンテーションモデルが訓練されました。
最後に、実験では、ほぼ等方性の小領域のセグメンテーションが、T2W MRIの神経変性のイメージングバイオマーカーとしての皮質厚の精度を改善したことが示されました。

要約(オリジナル)

Morphometry of medial temporal lobe (MTL) subregions in brain MRI is sensitive biomarker to Alzheimers Disease and other related conditions. While T2-weighted (T2w) MRI with high in-plane resolution is widely used to segment hippocampal subfields due to its higher contrast in hippocampus, its lower out-of-plane resolution reduces the accuracy of subregion thickness measurements. To address this issue, we developed a nearly isotropic segmentation pipeline that incorporates image and label upsampling and high-resolution segmentation in T2w MRI. First, a high-resolution atlas was created based on an existing anisotropic atlas derived from 29 individuals. Both T1-weighted and T2w images in the atlas were upsampled from their original resolution to a nearly isotropic resolution 0.4×0.4×0.52mm3 using a non-local means approach. Manual segmentations within the atlas were also upsampled to match this resolution using a UNet-based neural network, which was trained on a cohort consisting of both high-resolution ex vivo and low-resolution anisotropic in vivo MRI with manual segmentations. Second, a multi-modality deep learning-based segmentation model was trained within this nearly isotropic atlas. Finally, experiments showed the nearly isotropic subregion segmentation improved the accuracy of cortical thickness as an imaging biomarker for neurodegeneration in T2w MRI.

arxiv情報

著者 Yue Li,Pulkit Khandelwal,Long Xie,Laura E. M. Wisse,Nidhi Mundada,Christopher A. Brown,Emily McGrew,Amanda Denning,Sandhitsu R. Das,David A. Wolk,Paul A. Yushkevich
発行日 2025-04-25 15:54:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Nearly isotropic segmentation for medial temporal lobe subregions in multi-modality MRI はコメントを受け付けていません

Understanding Depth and Height Perception in Large Visual-Language Models

要約

幾何学的理解 – 深さと身長の知覚を含む – は、知性の基本であり、環境をナビゲートするために重要です。
大規模なビジョン言語モデル(VLM)の印象的な能力にもかかわらず、視覚的知覚における実用的なアプリケーションに必要な幾何学的理解をどれだけ持っているかは不明のままです。
この作業では、これらのモデルの幾何学的理解を評価することに焦点を当て、特に画像内のオブジェクトの深さと高さを知覚する能力をターゲットにしています。
これに対処するために、これらの側面を厳密に評価するために、2Dおよび3Dシナリオを含む一連のベンチマークデータセットであるGeomerを紹介します。
18の最先端のVLMをベンチマークすることにより、形状やサイズなどの基本的な幾何学的特性を知覚することに優れているが、深さと身長の知覚に一貫して苦労していることがわかりました。
私たちの分析は、これらの課題が、深さと高さの推論能力と固有のバイアスの欠点に起因することを明らかにしています。
この研究の目的は、現実世界のアプリケーションに必要な重要なコンポーネントとして深さと身長の知覚を強調することにより、幾何学的理解を強化したVLMを開発する方法を開くことを目的としています。

要約(オリジナル)

Geometric understanding – including depth and height perception – is fundamental to intelligence and crucial for navigating our environment. Despite the impressive capabilities of large Vision Language Models (VLMs), it remains unclear how well they possess the geometric understanding required for practical applications in visual perception. In this work, we focus on evaluating the geometric understanding of these models, specifically targeting their ability to perceive the depth and height of objects in an image. To address this, we introduce GeoMeter, a suite of benchmark datasets – encompassing 2D and 3D scenarios – to rigorously evaluate these aspects. By benchmarking 18 state-of-the-art VLMs, we found that although they excel in perceiving basic geometric properties like shape and size, they consistently struggle with depth and height perception. Our analysis reveal that these challenges stem from shortcomings in their depth and height reasoning capabilities and inherent biases. This study aims to pave the way for developing VLMs with enhanced geometric understanding by emphasizing depth and height perception as critical components necessary for real-world applications.

arxiv情報

著者 Shehreen Azad,Yash Jain,Rishit Garg,Yogesh S Rawat,Vibhav Vineet
発行日 2025-04-25 15:56:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Understanding Depth and Height Perception in Large Visual-Language Models はコメントを受け付けていません

Iterative Event-based Motion Segmentation by Variational Contrast Maximization

要約

イベントカメラは、シーンの変化に応答するため、モーション推定に適した豊富な信号を提供します。
シーンの視覚的な変更がイベントデータを生成するため、データを異なる動き(つまり、モーションセグメンテーション)に分類することが最重要です。これは、オブジェクト検出や視覚サーボなどのさまざまなタスクに役立ちます。
イベントを背景(支配的な運動仮説など)と前景(独立した運動残差)に分類し、コントラストの最大化フレームワークを拡張することにより、反復運動セグメンテーション方法を提案します。
実験結果は、提案された方法が、公開データセットと自己記録されたデータセットの両方でイベントクラスターを分類し、シャープでモーション補償のエッジのような画像を生成することを実証しています。
提案された方法は、30%以上の改善を伴う移動オブジェクト検出ベンチマークの最先端の精度を達成し、より複雑で騒々しい現実世界のシーンに適用する可能性を示しています。
この作業により、モーションパラメーターと入力イベントの両方に関するコントラストの最大化の感度が広がり、イベントベースのモーションセグメンテーション推定における理論的進歩に貢献することを願っています。
https://github.com/aoki-media-lab/event_based_segmentation_vcmax

要約(オリジナル)

Event cameras provide rich signals that are suitable for motion estimation since they respond to changes in the scene. As any visual changes in the scene produce event data, it is paramount to classify the data into different motions (i.e., motion segmentation), which is useful for various tasks such as object detection and visual servoing. We propose an iterative motion segmentation method, by classifying events into background (e.g., dominant motion hypothesis) and foreground (independent motion residuals), thus extending the Contrast Maximization framework. Experimental results demonstrate that the proposed method successfully classifies event clusters both for public and self-recorded datasets, producing sharp, motion-compensated edge-like images. The proposed method achieves state-of-the-art accuracy on moving object detection benchmarks with an improvement of over 30%, and demonstrates its possibility of applying to more complex and noisy real-world scenes. We hope this work broadens the sensitivity of Contrast Maximization with respect to both motion parameters and input events, thus contributing to theoretical advancements in event-based motion segmentation estimation. https://github.com/aoki-media-lab/event_based_segmentation_vcmax

arxiv情報

著者 Ryo Yamaki,Shintaro Shiba,Guillermo Gallego,Yoshimitsu Aoki
発行日 2025-04-25 16:00:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | Iterative Event-based Motion Segmentation by Variational Contrast Maximization はコメントを受け付けていません

NoiseController: Towards Consistent Multi-view Video Generation via Noise Decomposition and Collaboration

要約

高品質のビデオ生成は、映画産業や自律運転など、多くの分野で重要です。
ただし、時空間的な一貫性を使用してビデオを生成することは依然として困難です。
現在の方法は通常、注意メカニズムを利用したり、ノイズを変更して一貫したビデオを達成し、ビデオ生成中の空間的および時間的一貫性を確保するのに役立つグローバルな空間的情報を無視します。
このホワイトペーパーでは、ビデオ生成における空間的一貫性を高めるために、マルチレベルのノイズ分解、マルチフレームノイズコラボレーション、および共同除去からなるノイズコントローラーを提案します。
マルチレベルのノイズ分解では、最初に初期ノイズをシーンレベルの前景/背景ノイズに分解し、異なるモーションプロパティをキャプチャして、マルチビュー前景/背景のバリエーションをモデル化します。
さらに、各シーンレベルのノイズは、個々のレベルの共有および残留コンポーネントにさらに分解されます。
共有ノイズは一貫性を維持し、残差コンポーネントは多様性を維持します。
マルチフレームノイズコラボレーションでは、相互のクロスビュー効果と履歴クロスフレームインパクトをキャプチャしてビデオ品質を高めるために、インタービューの時空間コラボレーションマトリックスとビュー内のインパクトコラボレーションマトリックスを導入します。
共同除去には、2つの並列除去Uネットが含まれており、各シーンレベルのノイズを除去し、ビデオ生成を相互に強化します。
ビデオ生成とダウンストリームタスクに焦点を当てたパブリックデータセットでNoiseControllerを評価し、最先端のパフォーマンスを実証します。

要約(オリジナル)

High-quality video generation is crucial for many fields, including the film industry and autonomous driving. However, generating videos with spatiotemporal consistencies remains challenging. Current methods typically utilize attention mechanisms or modify noise to achieve consistent videos, neglecting global spatiotemporal information that could help ensure spatial and temporal consistency during video generation. In this paper, we propose the NoiseController, consisting of Multi-Level Noise Decomposition, Multi-Frame Noise Collaboration, and Joint Denoising, to enhance spatiotemporal consistencies in video generation. In multi-level noise decomposition, we first decompose initial noises into scene-level foreground/background noises, capturing distinct motion properties to model multi-view foreground/background variations. Furthermore, each scene-level noise is further decomposed into individual-level shared and residual components. The shared noise preserves consistency, while the residual component maintains diversity. In multi-frame noise collaboration, we introduce an inter-view spatiotemporal collaboration matrix and an intra-view impact collaboration matrix , which captures mutual cross-view effects and historical cross-frame impacts to enhance video quality. The joint denoising contains two parallel denoising U-Nets to remove each scene-level noise, mutually enhancing video generation. We evaluate our NoiseController on public datasets focusing on video generation and downstream tasks, demonstrating its state-of-the-art performance.

arxiv情報

著者 Haotian Dong,Xin Wang,Di Lin,Yipeng Wu,Qin Chen,Ruonan Liu,Kairui Yang,Ping Li,Qing Guo
発行日 2025-04-25 16:01:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | NoiseController: Towards Consistent Multi-view Video Generation via Noise Decomposition and Collaboration はコメントを受け付けていません

Fast-Slow Thinking for Large Vision-Language Model Reasoning

要約

大規模なビジョン言語モデル(LVLMS)の最近の進歩により、\ textit {オーバーシンク}現象が明らかになりました。ここでは、モデルが質問に関係なくすべてのタスクにわたって冗長な推論を生成します。
この問題に対処するために、\ textbf {fast}、noble \ textbf {fa} st- \ textbf {s} low \ textbf {t} hinkingフレームワークを提示します。
経験的分析を通じて、応答の長さとデータ分布がパフォーマンスにどのように影響するかを調査することにより、LVLMSでの高速スロー思考の実現可能性を確立します。
質問の特性評価のためのモデルベースのメトリック、適応的思考報酬メカニズム、および難易度を認識するKLの正則化の3つのコンポーネントを使用して、ファストグラポを開発します。
7つの推論ベンチマークにわたる実験では、基本モデルと比較して10 \%を超える相対改善を備えた最先端の精度が高速であると同時に、以前のゆっくりと考えているアプローチと比較してトークンの使用量を32.7-67.3 \%減少させ、推論の長さと精度を効果的にバランスさせます。

要約(オリジナル)

Recent advances in large vision-language models (LVLMs) have revealed an \textit{overthinking} phenomenon, where models generate verbose reasoning across all tasks regardless of questions. To address this issue, we present \textbf{FAST}, a novel \textbf{Fa}st-\textbf{S}low \textbf{T}hinking framework that dynamically adapts reasoning depth based on question characteristics. Through empirical analysis, we establish the feasibility of fast-slow thinking in LVLMs by investigating how response length and data distribution affect performance. We develop FAST-GRPO with three components: model-based metrics for question characterization, an adaptive thinking reward mechanism, and difficulty-aware KL regularization. Experiments across seven reasoning benchmarks demonstrate that FAST achieves state-of-the-art accuracy with over 10\% relative improvement compared to the base model, while reducing token usage by 32.7-67.3\% compared to previous slow-thinking approaches, effectively balancing reasoning length and accuracy.

arxiv情報

著者 Wenyi Xiao,Leilei Gan,Weilong Dai,Wanggui He,Ziwei Huang,Haoyuan Li,Fangxun Shu,Zhelun Yu,Peng Zhang,Hao Jiang,Fei Wu
発行日 2025-04-25 16:11:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Fast-Slow Thinking for Large Vision-Language Model Reasoning はコメントを受け付けていません

RGS-DR: Reflective Gaussian Surfels with Deferred Rendering for Shiny Objects

要約

RGS-DRを紹介します。RGS-DRは、柔軟なレリフトとシーンの編集をサポートして、光沢のある反射性オブジェクトを再構築およびレンダリングするための新しい逆レンダリング方法です。
既存の方法(例:NERFや3Dガウスのスプラッティング)とは異なり、ビュー依存効果と格闘しているRGS-DRは、高品質の逆レンダリングのための不可欠な特性であるジオメトリと表面正規を正確に推定するために2Dガウスサーフェル表現を利用しています。
私たちのアプローチは、繰延シェーディングパイプラインにラスター化された学習可能なプリミティブを介して、幾何学的および材料特性を明示的にモデル化し、レンダリングのレンダリングを効果的に削減し、鋭い反射を維持します。
マルチレベルのキューブMIPMAPを採用することにより、RGS-DRは環境照明積分を正確に近似し、高品質の再構築と再生を促進します。
球状のMIPMAPベースの方向性エンコードを使用した残留パスは、外観モデリングをさらに改善します。
実験は、RGS-DRが光沢のあるオブジェクトの高品質の再構築と品質を達成し、多くの場合、再構成を除く最先端の最新の方法よりも優れていることを示しています。

要約(オリジナル)

We introduce RGS-DR, a novel inverse rendering method for reconstructing and rendering glossy and reflective objects with support for flexible relighting and scene editing. Unlike existing methods (e.g., NeRF and 3D Gaussian Splatting), which struggle with view-dependent effects, RGS-DR utilizes a 2D Gaussian surfel representation to accurately estimate geometry and surface normals, an essential property for high-quality inverse rendering. Our approach explicitly models geometric and material properties through learnable primitives rasterized into a deferred shading pipeline, effectively reducing rendering artifacts and preserving sharp reflections. By employing a multi-level cube mipmap, RGS-DR accurately approximates environment lighting integrals, facilitating high-quality reconstruction and relighting. A residual pass with spherical-mipmap-based directional encoding further refines the appearance modeling. Experiments demonstrate that RGS-DR achieves high-quality reconstruction and rendering quality for shiny objects, often outperforming reconstruction-exclusive state-of-the-art methods incapable of relighting.

arxiv情報

著者 Georgios Kouros,Minye Wu,Tinne Tuytelaars
発行日 2025-04-25 16:23:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RGS-DR: Reflective Gaussian Surfels with Deferred Rendering for Shiny Objects はコメントを受け付けていません

Rethinking Few-Shot Image Fusion: Granular Ball Priors Enable General-Purpose Deep Fusion

要約

画像融合タスクでは、プライアーとしての実際の融合画像が存在しないことは、基本的な課題を提示します。
ほとんどの深い学習ベースの融合方法は、大規模なペアのデータセットに依存して、生の画像からグローバルな重み付け機能を抽出し、それにより、実際の融合画像を近似する融合出力を生成します。
以前の研究とは対照的に、このペーパーでは、事前知識があるという条件下でのニューラルネットワークの少数のショットトレーニングを調査します。
GBFFという名前の新しい融合フレームワークと、少数のショット以前の設定向けに特別に設計された粒状ボールの重要な抽出アルゴリズムを提案します。
融合プロセスに関与するすべてのピクセルペアは、最初は粗粒の粒状ボールとしてモデル化されます。
ローカルレベルでは、細粒の粒状ボールを使用して、輝度空間をスライドさせて非依存性ピクセルペアを抽出し、分割操作を実行して顕著なピクセルペアを取得します。
次に、ピクセルごとの重みが計算され、擬似補助画像が生成されます。
グローバルレベルでは、融合プロセスに多大な貢献をしたピクセルペアが正の領域に分類されますが、その貢献を正確に決定できないものは境界領域に割り当てられます。
粒状ボールは、正の領域の割合に基づいてモダリティを意識した適応を実行し、それによりニューラルネットワークの損失関数を調整し、境界領域の情報を補完できるようにします。
広範な実験は、提案されたアルゴリズムと基礎となる理論の両方の有効性を示しています。
最先端の(SOTA)方法と比較して、私たちのアプローチは、融合時間とイメージの表現力の両方の観点から強い競争力を示しています。
当社のコードは、次のように公開されています。

要約(オリジナル)

In image fusion tasks, the absence of real fused images as priors presents a fundamental challenge. Most deep learning-based fusion methods rely on large-scale paired datasets to extract global weighting features from raw images, thereby generating fused outputs that approximate real fused images. In contrast to previous studies, this paper explores few-shot training of neural networks under the condition of having prior knowledge. We propose a novel fusion framework named GBFF, and a Granular Ball Significant Extraction algorithm specifically designed for the few-shot prior setting. All pixel pairs involved in the fusion process are initially modeled as a Coarse-Grained Granular Ball. At the local level, Fine-Grained Granular Balls are used to slide through the brightness space to extract Non-Salient Pixel Pairs, and perform splitting operations to obtain Salient Pixel Pairs. Pixel-wise weights are then computed to generate a pseudo-supervised image. At the global level, pixel pairs with significant contributions to the fusion process are categorized into the Positive Region, while those whose contributions cannot be accurately determined are assigned to the Boundary Region. The Granular Ball performs modality-aware adaptation based on the proportion of the positive region, thereby adjusting the neural network’s loss function and enabling it to complement the information of the boundary region. Extensive experiments demonstrate the effectiveness of both the proposed algorithm and the underlying theory. Compared with state-of-the-art (SOTA) methods, our approach shows strong competitiveness in terms of both fusion time and image expressiveness. Our code is publicly available at:

arxiv情報

著者 Minjie Deng,Yan Wei,Hao Zhai,An Wu,Yuncan Ouyang,Qianyao Peng
発行日 2025-04-25 16:35:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG, eess.IV, stat.ML | Rethinking Few-Shot Image Fusion: Granular Ball Priors Enable General-Purpose Deep Fusion はコメントを受け付けていません

DCFormer: Efficient 3D Vision-Language Modeling with Decomposed Convolutions

要約

ビジョン言語モデル(VLM)は、視覚的表現とテキスト表現を整列させる能力により、2D医療画像分析に広く適用されています。
ただし、VLMを3Dイメージングに拡張することは、計算上困難なままです。
既存の3D VLMは、多くの場合、視覚変圧器(VITS)に依存しています。これは、自己立文の2次複雑さのために計算上高価なもの、またはカーネルサイズが増加するにつれて多数のパラメーターとフロップが必要です。
DCFormerを紹介します。これは、3D畳み込みを3つの並列1D畳み込みに沿って、深さ、高さ、幅の寸法に沿って3つの並列1D畳み込みに因数分解します。
この設計により、空間情報が保存され、計算コストが大幅に削減されます。
クリップベースのビジョン言語フレームワークに統合されたDCFormerは、50,188ペアの3DチェストCTボリュームと放射線学レポートのデータセットであるCT-Rateでトレーニングおよび評価されます。
18の病理のゼロショットおよび微調整された検出、および画像テキスト検索タスクの検出では、DCFORMERはCT-VIT、VIT、Convnext、Poolformer、TransUnetなどの最先端の3Dビジョンエンコーダーよりも一貫して優れています。
これらの結果は、Scalable、臨床的に展開可能な3D医療VLMSのDCFormerの可能性を強調しています。
私たちのコードは、https://github.com/mirthai/dcformerで入手できます。

要約(オリジナル)

Vision-language models (VLMs) have been widely applied to 2D medical image analysis due to their ability to align visual and textual representations. However, extending VLMs to 3D imaging remains computationally challenging. Existing 3D VLMs often rely on Vision Transformers (ViTs), which are computationally expensive due to the quadratic complexity of self-attention, or on 3D convolutions, which require large numbers of parameters and FLOPs as kernel size increases. We introduce DCFormer, an efficient 3D image encoder that factorizes 3D convolutions into three parallel 1D convolutions along the depth, height, and width dimensions. This design preserves spatial information while significantly reducing computational cost. Integrated into a CLIP-based vision-language framework, DCFormer is trained and evaluated on CT-RATE, a dataset of 50,188 paired 3D chest CT volumes and radiology reports. In zero-shot and fine-tuned detection of 18 pathologies, as well as in image-text retrieval tasks, DCFormer consistently outperforms state-of-the-art 3D vision encoders, including CT-ViT, ViT, ConvNeXt, PoolFormer, and TransUNet. These results highlight DCFormer’s potential for scalable, clinically deployable 3D medical VLMs. Our code is available at: https://github.com/mirthAI/DCFormer.

arxiv情報

著者 Gorkem Can Ates,Yu Xin,Kuang Gong,Wei Shao
発行日 2025-04-25 16:36:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DCFormer: Efficient 3D Vision-Language Modeling with Decomposed Convolutions はコメントを受け付けていません

An Improved ResNet50 Model for Predicting Pavement Condition Index (PCI) Directly from Pavement Images

要約

舗装条件インデックス(PCI)を正確に予測すると、舗装画像からの道路条件の尺度がインフラストラクチャのメンテナンスに不可欠です。
この調査では、追加の注釈なしで舗装画像からPCIを直接予測するために、畳み込みブロック注意モジュール(CBAM)と統合された残差ネットワーク(RESNET50)アーキテクチャの拡張バージョンを提案しています。
CBAMを組み込むことにより、モデルは画像内の重要な機能を自律的に優先し、予測の精度を向上させます。
元のベースラインRESNET50およびDENSENET161アーキテクチャと比較して、拡張されたResNET50-CBAMモデルは、それぞれ70.76%と65.48%を達成したベースラインモデルと比較して、58.16%の平均絶対パーセンテージ誤差(MAPE)が大幅に低くなりました。
これらの結果は、特徴抽出を改良するために注意メカニズムを使用して、最終的に舗装条件のより正確で効率的な評価を可能にする可能性を強調しています。
この研究では、注意メカニズムを通じて自動化された舗装分析を進める上でターゲットを絞った特徴の改良の重要性を強調しています。

要約(オリジナル)

Accurately predicting the Pavement Condition Index (PCI), a measure of roadway conditions, from pavement images is crucial for infrastructure maintenance. This study proposes an enhanced version of the Residual Network (ResNet50) architecture, integrated with a Convolutional Block Attention Module (CBAM), to predict PCI directly from pavement images without additional annotations. By incorporating CBAM, the model autonomously prioritizes critical features within the images, improving prediction accuracy. Compared to the original baseline ResNet50 and DenseNet161 architectures, the enhanced ResNet50-CBAM model achieved a significantly lower mean absolute percentage error (MAPE) of 58.16%, compared to the baseline models that achieved 70.76% and 65.48% respectively. These results highlight the potential of using attention mechanisms to refine feature extraction, ultimately enabling more accurate and efficient assessments of pavement conditions. This study emphasizes the importance of targeted feature refinement in advancing automated pavement analysis through attention mechanisms.

arxiv情報

著者 Andrews Danyo,Anthony Dontoh,Armstrong Aboah
発行日 2025-04-25 17:00:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | An Improved ResNet50 Model for Predicting Pavement Condition Index (PCI) Directly from Pavement Images はコメントを受け付けていません