MCAT: Visual Query-Based Localization of Standard Anatomical Clips in Fetal Ultrasound Videos Using Multi-Tier Class-Aware Token Transformer

要約

胎児超音波(US)ビデオにおける正確な標準平面取得は、胎児の成長評価、異常検出、および臨床ガイドラインの遵守に重要です。
ただし、手動で標準のフレームを選択することは時間がかかり、ゾン内およびゾノグラファー間の変動性が発生しやすくなります。
既存の方法は、主に標準フレームをキャプチャし、異なる解剖学にわたって入力フレームを分類する画像ベースのアプローチに依存しています。
これは、ビデオ獲得の動的な性質とその解釈を無視します。
これらの課題に対処するために、視覚的なクエリベースのビデオクリップローカリゼーション(VQ-VCL)メソッドであるマルチティアクラスアウェアトークントランス(MCAT)を導入して、ソノグラフ人が迅速な米国のスイープをキャプチャできるようにします。
その後、分析したい解剖学の視覚的なクエリを提供することにより、MCATはその解剖学の標準フレームを含むビデオクリップを返し、潜在的な異常の徹底的なスクリーニングを促進します。
2つの超音波ビデオデータセットと、EGO4Dに基づく自然画像VQ-VCLデータセットでMCATを評価します。
私たちのモデルは、96%少ないトークンを使用して、超音波データセットで10%および13%MIOU、EGO4Dデータセットで5.35%MIOUよりも最先端の方法よりも優れています。
MCATの効率と精度は、特に低中所得国(LMIC)において、公衆衛生に大きな潜在的な意味を持ち、標準的な飛行機の獲得を合理化し、米国ベースのスクリーニング、診断、およびソノグラフィーがより多くの患者を調べることができるようにすることにより、出生前ケアを強化する可能性があります。

要約(オリジナル)

Accurate standard plane acquisition in fetal ultrasound (US) videos is crucial for fetal growth assessment, anomaly detection, and adherence to clinical guidelines. However, manually selecting standard frames is time-consuming and prone to intra- and inter-sonographer variability. Existing methods primarily rely on image-based approaches that capture standard frames and then classify the input frames across different anatomies. This ignores the dynamic nature of video acquisition and its interpretation. To address these challenges, we introduce Multi-Tier Class-Aware Token Transformer (MCAT), a visual query-based video clip localization (VQ-VCL) method, to assist sonographers by enabling them to capture a quick US sweep. By then providing a visual query of the anatomy they wish to analyze, MCAT returns the video clip containing the standard frames for that anatomy, facilitating thorough screening for potential anomalies. We evaluate MCAT on two ultrasound video datasets and a natural image VQ-VCL dataset based on Ego4D. Our model outperforms state-of-the-art methods by 10% and 13% mIoU on the ultrasound datasets and by 5.35% mIoU on the Ego4D dataset, using 96% fewer tokens. MCAT’s efficiency and accuracy have significant potential implications for public health, especially in low- and middle-income countries (LMICs), where it may enhance prenatal care by streamlining standard plane acquisition, simplifying US-based screening, diagnosis and allowing sonographers to examine more patients.

arxiv情報

著者 Divyanshu Mishra,Pramit Saha,He Zhao,Netzahualcoyotl Hernandez-Cruz,Olga Patey,Aris Papageorghiou,J. Alison Noble
発行日 2025-04-08 14:29:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | MCAT: Visual Query-Based Localization of Standard Anatomical Clips in Fetal Ultrasound Videos Using Multi-Tier Class-Aware Token Transformer はコメントを受け付けていません

Towards Varroa destructor mite detection using a narrow spectra illumination

要約

このペーパーでは、U-NET、セマンティックセグメンテーションアーキテクチャ、および従来のコンピュータービジョン方法を利用しながら、ハイパースペクトル画像の助けを借りて、ミツバチの蜂の巣監視デバイスとヴァロアデストラクタ検出の開発と修正に焦点を当てています。
主な目的は、ミツバチとダニのデータセットを収集し、ミツバチとダニの間の検出を実現できるコンピュータービジョンモデルを提案することでした。

要約(オリジナル)

This paper focuses on the development and modification of a beehive monitoring device and Varroa destructor detection on the bees with the help of hyperspectral imagery while utilizing a U-net, semantic segmentation architecture, and conventional computer vision methods. The main objectives were to collect a dataset of bees and mites, and propose the computer vision model which can achieve the detection between bees and mites.

arxiv情報

著者 Samuel Bielik,Simon Bilik
発行日 2025-04-08 14:41:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Towards Varroa destructor mite detection using a narrow spectra illumination はコメントを受け付けていません

VIRES: Video Instance Repainting via Sketch and Text Guided Generation

要約

スケッチとテキストのガイダンスを使用したビデオインスタンスの補償方法であるViresを紹介し、ビデオインスタンスの補償、交換、生成、および削除を可能にします。
既存のアプローチは、一時的な一貫性と、提供されたスケッチシーケンスとの正確な整合と格闘しています。
Viresは、テキスト間モデルの生成前の事前を活用して、時間的な一貫性を維持し、視覚的に心地よい結果を生み出します。
標準化されたセルフスケーリングを使用したシーケンシャルコントロールネットを提案します。これにより、構造レイアウトを効果的に抽出し、高コントラストのスケッチの詳細を適応的にキャプチャします。
さらに、スケッチの注意を払って拡散変圧器のバックボーンを強化し、細粒のスケッチセマンティクスを解釈および注入します。
スケッチ認識エンコーダーは、塗り直された結果が提供されたスケッチシーケンスと一致することを保証します。
さらに、ビデオインスタンスの編集方法のトレーニングと評価に合わせた詳細な注釈を備えたデータセットであるViresetを提供します。
実験結果は、ウイルスの有効性を示しており、視覚的な品質、時間的一貫性、条件アライメント、および人間の評価における最先端の方法よりも優れています。
プロジェクトページ:https://hjzheng.net/projects/vires/

要約(オリジナル)

We introduce VIRES, a video instance repainting method with sketch and text guidance, enabling video instance repainting, replacement, generation, and removal. Existing approaches struggle with temporal consistency and accurate alignment with the provided sketch sequence. VIRES leverages the generative priors of text-to-video models to maintain temporal consistency and produce visually pleasing results. We propose the Sequential ControlNet with the standardized self-scaling, which effectively extracts structure layouts and adaptively captures high-contrast sketch details. We further augment the diffusion transformer backbone with the sketch attention to interpret and inject fine-grained sketch semantics. A sketch-aware encoder ensures that repainted results are aligned with the provided sketch sequence. Additionally, we contribute the VireSet, a dataset with detailed annotations tailored for training and evaluating video instance editing methods. Experimental results demonstrate the effectiveness of VIRES, which outperforms state-of-the-art methods in visual quality, temporal consistency, condition alignment, and human ratings. Project page: https://hjzheng.net/projects/VIRES/

arxiv情報

著者 Shuchen Weng,Haojie Zheng,Peixuan Zhang,Yuchen Hong,Han Jiang,Si Li,Boxin Shi
発行日 2025-04-08 14:47:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | VIRES: Video Instance Repainting via Sketch and Text Guided Generation はコメントを受け付けていません

To Match or Not to Match: Revisiting Image Matching for Reliable Visual Place Recognition

要約

Visual Place認識(VPR)は、コンピュータービジョンにおける重要なタスクであり、画像マッチングで検索結果を再ランクすることで伝統的に強化されていました。
ただし、VPRメソッドの最近の進歩により、パフォーマンスが大幅に改善され、再ランクの必要性が困難になりました。
この作業では、現在のVPRデータセットが大部分が飽和しているため、最新の検索システムが再ランクが結果を分解できるポイントに到達することが多いことを示しています。
検索の信頼を評価するための検証ステップとして画像マッチングを使用して使用することを提案します。これは、再ランキングが有益である場合に、その中間カウントが確実に予測できることを示しています。
私たちの調査結果は、検索パイプラインのパラダイムをシフトし、より堅牢で適応性のあるVPRシステムの洞察を提供します。

要約(オリジナル)

Visual Place Recognition (VPR) is a critical task in computer vision, traditionally enhanced by re-ranking retrieval results with image matching. However, recent advancements in VPR methods have significantly improved performance, challenging the necessity of re-ranking. In this work, we show that modern retrieval systems often reach a point where re-ranking can degrade results, as current VPR datasets are largely saturated. We propose using image matching as a verification step to assess retrieval confidence, demonstrating that inlier counts can reliably predict when re-ranking is beneficial. Our findings shift the paradigm of retrieval pipelines, offering insights for more robust and adaptive VPR systems.

arxiv情報

著者 Davide Sferrazza,Gabriele Berton,Gabriele Trivigno,Carlo Masone
発行日 2025-04-08 15:10:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | To Match or Not to Match: Revisiting Image Matching for Reliable Visual Place Recognition はコメントを受け付けていません

Hyperbolic Category Discovery

要約

一般化されたカテゴリ発見(GCD)は、注目を集めている興味深いオープンワールドの問題です。
ラベル付き画像と非標識画像の両方を含むデータセットが与えられた場合、GCDは、既知のクラスまたは不明なクラスに属しているかどうかに関係なく、非標識サブセット内のすべての画像を分類することを目指しています。
GCDでは、一般的な慣行には通常、ユークリッドまたは球状空間内で動作する自己監視された前ored骨骨の端に球状投影演算子を適用することが含まれます。
ただし、これらのスペースは両方とも、階層構造を持つサンプルをエンコードするために最適ではないことが示されています。
対照的に、双曲線空間は、半径と比較して指数関数的な体積の成長を示し、見られたカテゴリと目に見えないカテゴリの両方からサンプルの階層構造をキャプチャするのが本質的に強くなっています。
したがって、双曲線空間でのカテゴリディスカバリーチャレンジに取り組むことを提案します。
一般化された\ underline {c} ategory \ underline {d} iscoveryの階層認識表現と分類器を学習するための単純な\ underline {hyp} erbolicフレームワークであるHipcdを紹介します。
HYPCDは、まずバックボーンネットワークのユークリッド埋め込みスペースを双曲線空間に変換し、双曲線距離とサンプル間の角度の両方を考慮して、その後の表現と分類学習を促進します。
このアプローチは、GCDの既知のカテゴリから未知のカテゴリへの知識移転に特に役立ちます。
パブリックGCDベンチマークでLipCDを徹底的に評価し、さまざまなベースラインおよび最先端の方法に適用し、一貫して大幅な改善を達成します。

要約(オリジナル)

Generalized Category Discovery (GCD) is an intriguing open-world problem that has garnered increasing attention. Given a dataset that includes both labelled and unlabelled images, GCD aims to categorize all images in the unlabelled subset, regardless of whether they belong to known or unknown classes. In GCD, the common practice typically involves applying a spherical projection operator at the end of the self-supervised pretrained backbone, operating within Euclidean or spherical space. However, both of these spaces have been shown to be suboptimal for encoding samples that possesses hierarchical structures. In contrast, hyperbolic space exhibits exponential volume growth relative to radius, making it inherently strong at capturing the hierarchical structure of samples from both seen and unseen categories. Therefore, we propose to tackle the category discovery challenge in the hyperbolic space. We introduce HypCD, a simple \underline{Hyp}erbolic framework for learning hierarchy-aware representations and classifiers for generalized \underline{C}ategory \underline{D}iscovery. HypCD first transforms the Euclidean embedding space of the backbone network into hyperbolic space, facilitating subsequent representation and classification learning by considering both hyperbolic distance and the angle between samples. This approach is particularly helpful for knowledge transfer from known to unknown categories in GCD. We thoroughly evaluate HypCD on public GCD benchmarks, by applying it to various baseline and state-of-the-art methods, consistently achieving significant improvements.

arxiv情報

著者 Yuanpei Liu,Zhenqi He,Kai Han
発行日 2025-04-08 15:12:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Hyperbolic Category Discovery はコメントを受け付けていません

A Robust Real-Time Lane Detection Method with Fog-Enhanced Feature Fusion for Foggy Conditions

要約

レーン検出は、高度なドライバー支援システム(ADA)の重要なコンポーネントです。
既存のレーン検出アルゴリズムは、一般に、好ましい気象条件の下でうまく機能します。
しかし、彼らのパフォーマンスは、霧などの不利な条件で大幅に低下し、交通事故のリスクが高まります。
この課題は、霧の環境向けに設計された特殊なデータセットと方法がないことによって悪化します。
これに対処するために、実際の霧のようなシナリオでキャプチャされたFoggylaneデータセットを導入し、既存の人気レーン検出データセットから2つの追加データセット、FoggyculaneとFoggytusimpleを合成します。
さらに、レーン検出のための堅牢な霧強化ネットワークを提案します。グローバルな特徴融合モジュール(GFFM)を組み込んで、霧の画像のグローバルな関係をキャプチャし、カーネル特徴融合モジュール(KFFM)をレーンインスタンスの構造的および位置的関係をモデル化し、ローエッジ強化モジュール(LEEM)をモデル化します。
包括的な実験は、私たちの方法が最先端のパフォーマンスを達成し、F1スコアのFoggylane、Foggyculaneで79.85、Foggytusimpleで96.95であることを示しています。
さらに、Tensortの加速により、この方法はNvidia Jetson AGX Orinで38.4 fpsの処理速度に達し、霧の環境でのリアルタイム機能と堅牢性を確認します。

要約(オリジナル)

Lane detection is a critical component of Advanced Driver Assistance Systems (ADAS). Existing lane detection algorithms generally perform well under favorable weather conditions. However, their performance degrades significantly in adverse conditions, such as fog, which increases the risk of traffic accidents. This challenge is compounded by the lack of specialized datasets and methods designed for foggy environments. To address this, we introduce the FoggyLane dataset, captured in real-world foggy scenarios, and synthesize two additional datasets, FoggyCULane and FoggyTusimple, from existing popular lane detection datasets. Furthermore, we propose a robust Fog-Enhanced Network for lane detection, incorporating a Global Feature Fusion Module (GFFM) to capture global relationships in foggy images, a Kernel Feature Fusion Module (KFFM) to model the structural and positional relationships of lane instances, and a Low-level Edge Enhanced Module (LEEM) to address missing edge details in foggy conditions. Comprehensive experiments demonstrate that our method achieves state-of-the-art performance, with F1-scores of 95.04 on FoggyLane, 79.85 on FoggyCULane, and 96.95 on FoggyTusimple. Additionally, with TensorRT acceleration, the method reaches a processing speed of 38.4 FPS on the NVIDIA Jetson AGX Orin, confirming its real-time capabilities and robustness in foggy environments.

arxiv情報

著者 Ronghui Zhang,Yuhang Ma,Tengfei Li,Ziyu Lin,Yueying Wu,Junzhou Chen,Lin Zhang,Jia Hu,Tony Z. Qiu,Konghui Guo
発行日 2025-04-08 15:13:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Robust Real-Time Lane Detection Method with Fog-Enhanced Feature Fusion for Foggy Conditions はコメントを受け付けていません

FaceCloak: Learning to Protect Face Templates

要約

生成モデルは、セキュリティとプライバシーの懸念を高める元の顔に顕著な肖像を持つ、エンコードされた表現(テンプレート)からフェイス画像を再構築できます。
SMARTで再生可能なバイナリクロークを生成することにより、フェイステンプレートを保護するニューラルネットワークフレームワークであるFaceCloakを提示します。
私たちの方法は、その場で単一の顔のテンプレートから合成された一意の破壊者で顔のテンプレートを覆うことにより、反転攻撃を積極的に妨害しながら、バイオメトリックの有用性と非難を実証します。
私たちのクロークされたテンプレートは、新しい機能抽出スキームに一般化しながら、生体認証のマッチングと再構築攻撃への回復力の観点から、主要なベースラインを上回る間、機密属性を抑制します。
Facecloakベースのマッチングは非常に高速(推論時間コスト= 0.28ms)および軽量(0.57MB)です。

要約(オリジナル)

Generative models can reconstruct face images from encoded representations (templates) bearing remarkable likeness to the original face raising security and privacy concerns. We present FaceCloak, a neural network framework that protects face templates by generating smart, renewable binary cloaks. Our method proactively thwarts inversion attacks by cloaking face templates with unique disruptors synthesized from a single face template on the fly while provably retaining biometric utility and unlinkability. Our cloaked templates can suppress sensitive attributes while generalizing to novel feature extraction schemes and outperforms leading baselines in terms of biometric matching and resiliency to reconstruction attacks. FaceCloak-based matching is extremely fast (inference time cost=0.28ms) and light-weight (0.57MB).

arxiv情報

著者 Sudipta Banerjee,Anubhav Jain,Chinmay Hegde,Nasir Memon
発行日 2025-04-08 15:23:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FaceCloak: Learning to Protect Face Templates はコメントを受け付けていません

ND-SDF: Learning Normal Deflection Fields for High-Fidelity Indoor Reconstruction

要約

ボリュームレンダリングを介した神経暗黙の再構築により、高密度の3D表面の回復における有効性が実証されています。
ただし、特性が異なる地域全体で同時に綿密なジオメトリを回復し、滑らかさを維持することは自明ではありません。
この問題に対処するために、以前の方法は通常、以前のモデルのパフォーマンスによって制約されることが多い幾何学的なプライアーを採用しています。
この論文では、ND-SDFを提案します。ND-SDFは、正常な偏向フィールドを学習し、シーン正常と以前の通常の角偏差を表すことを学習します。
すべてのサンプルに幾何学的事前に均一に適用される以前の方法とは異なり、精度の重要なバイアスを導入すると、提案されている通常のたわみフィールドは、特定の特性に基づいてサンプルの利用を動的に学習および適応させ、それによってモデルの精度と有効性の両方を改善します。
私たちの方法は、壁や床などの滑らかな弱いテクスチャーの領域を取得するだけでなく、複雑な構造の幾何学的な詳細を保存します。
さらに、偏向角度に基づいて新しい光線サンプリング戦略を導入して、特に薄い構造で複雑な表面の品質と精度を大幅に改善する偏りのないレンダリングプロセスを促進します。
さまざまな挑戦的なデータセットの一貫した改善は、私たちの方法の優位性を示しています。

要約(オリジナル)

Neural implicit reconstruction via volume rendering has demonstrated its effectiveness in recovering dense 3D surfaces. However, it is non-trivial to simultaneously recover meticulous geometry and preserve smoothness across regions with differing characteristics. To address this issue, previous methods typically employ geometric priors, which are often constrained by the performance of the prior models. In this paper, we propose ND-SDF, which learns a Normal Deflection field to represent the angular deviation between the scene normal and the prior normal. Unlike previous methods that uniformly apply geometric priors on all samples, introducing significant bias in accuracy, our proposed normal deflection field dynamically learns and adapts the utilization of samples based on their specific characteristics, thereby improving both the accuracy and effectiveness of the model. Our method not only obtains smooth weakly textured regions such as walls and floors but also preserves the geometric details of complex structures. In addition, we introduce a novel ray sampling strategy based on the deflection angle to facilitate the unbiased rendering process, which significantly improves the quality and accuracy of intricate surfaces, especially on thin structures. Consistent improvements on various challenging datasets demonstrate the superiority of our method.

arxiv情報

著者 Ziyu Tang,Weicai Ye,Yifan Wang,Di Huang,Hujun Bao,Tong He,Guofeng Zhang
発行日 2025-04-08 15:24:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | ND-SDF: Learning Normal Deflection Fields for High-Fidelity Indoor Reconstruction はコメントを受け付けていません

A Training-Free Style-aligned Image Generation with Scale-wise Autoregressive Model

要約

スケールワイズの自己回帰モデルを活用するトレーニングフリーのスタイルに合わせた画像生成方法を提示します。
大規模なテキストからイメージ(T2I)モデル、特に拡散ベースの方法は印象的な発電の品質を実証していますが、生成された画像セットとゆっくりとした推論速度全体でスタイルの不整合に苦しみ、実用的な使いやすさを制限します。
これらの問題に対処するために、3つの重要なコンポーネントを提案します。一貫したバックグラウンド外観を確保するための初期機能置換、オブジェクトの配置を調整するための極めて重要な特徴補間、およびスケジュール関数を使用してスタイルの一貫性を強化するダイナミックスタイルインジェクション。
微調整や追加のトレーニングを必要とする以前の方法とは異なり、私たちのアプローチは、個々のコンテンツの詳細を維持しながら、高速な推論を維持します。
広範な実験では、我々の方法が競合するアプローチに匹敵する生成品質を達成し、スタイルのアライメントを大幅に改善し、最速のモデルの6倍以上の推論速度を提供することが示されています。

要約(オリジナル)

We present a training-free style-aligned image generation method that leverages a scale-wise autoregressive model. While large-scale text-to-image (T2I) models, particularly diffusion-based methods, have demonstrated impressive generation quality, they often suffer from style misalignment across generated image sets and slow inference speeds, limiting their practical usability. To address these issues, we propose three key components: initial feature replacement to ensure consistent background appearance, pivotal feature interpolation to align object placement, and dynamic style injection, which reinforces style consistency using a schedule function. Unlike previous methods requiring fine-tuning or additional training, our approach maintains fast inference while preserving individual content details. Extensive experiments show that our method achieves generation quality comparable to competing approaches, significantly improves style alignment, and delivers inference speeds over six times faster than the fastest model.

arxiv情報

著者 Jihun Park,Jongmin Gim,Kyoungmin Lee,Minseok Oh,Minwoo Choi,Jaeyeul Kim,Woo Chool Park,Sunghoon Im
発行日 2025-04-08 15:39:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Training-Free Style-aligned Image Generation with Scale-wise Autoregressive Model はコメントを受け付けていません

Parameter choices in HaarPSI for IQA with medical images

要約

機械学習モデルを開発する場合、画像品質評価(IQA)測定は、取得した出力画像の評価に重要なコンポーネントです。
ただし、一般的に使用されるフルレファレンスIQA(FR-IQA)測定は主に開発され、自然画像用に最適化されています。
医療画像などの多くの専門的な設定では、これは適切性に関する見落とされがちな問題をもたらします。
以前の研究では、FR-IQA測定Haarpsiは、一般化可能性に関する有望な行動を示しました。
測定値はHaarウェーブレット表現に基づいており、フレームワークは2つのパラメーターを最適化できます。
これまでのところ、これらのパラメーターは自然画像に対して整合されています。
ここでは、IQAの専門家評価を備えた2つの医療画像データセット、光音響データセットと胸部X線データセットのこれらのパラメーターを最適化します。
自然画像データとは異なる同様のパラメーター値につながり、パラメーターの変更により敏感であることがわかります。
新しい最適化された設定をHaarpsi $ _ {Med} $として示します。これにより、採用された医療画像のパフォーマンスが大幅に向上します(P <0.05)。 さらに、Haarpsi $ _ {Med} $の一般化可能性を示す独立したCTテストデータセットと、改善を定性的に実証する視覚的な例を含めます。 この結果は、医療画像のフレームワーク内に一般的なIQA測定を適応させることで、より具体的なタスクベースの測定値の採用に貴重で一般化可能な追加を提供できることを示唆しています。

要約(オリジナル)

When developing machine learning models, image quality assessment (IQA) measures are a crucial component for the evaluation of obtained output images. However, commonly used full-reference IQA (FR-IQA) measures have been primarily developed and optimized for natural images. In many specialized settings, such as medical images, this poses an often overlooked problem regarding suitability. In previous studies, the FR-IQA measure HaarPSI showed promising behavior regarding generalizability. The measure is based on Haar wavelet representations and the framework allows optimization of two parameters. So far, these parameters have been aligned for natural images. Here, we optimize these parameters for two medical image data sets, a photoacoustic and a chest X-ray data set, with IQA expert ratings. We observe that they lead to similar parameter values, different to the natural image data, and are more sensitive to parameter changes. We denote the novel optimized setting as HaarPSI$_{MED}$, which improves the performance of the employed medical images significantly (p<0.05). Additionally, we include an independent CT test data set that illustrates the generalizability of HaarPSI$_{MED}$, as well as visual examples that qualitatively demonstrate the improvement. The results suggest that adapting common IQA measures within their frameworks for medical images can provide a valuable, generalizable addition to employment of more specific task-based measures.

arxiv情報

著者 Clemens Karner,Janek Gröhl,Ian Selby,Judith Babar,Jake Beckford,Thomas R Else,Timothy J Sadler,Shahab Shahipasand,Arthikkaa Thavakumar,Michael Roberts,James H. F. Rudd,Carola-Bibiane Schönlieb,Jonathan R Weir-McCall,Anna Breger
発行日 2025-04-08 15:40:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Parameter choices in HaarPSI for IQA with medical images はコメントを受け付けていません