Leaky ReLUs That Differ in Forward and Backward Pass Facilitate Activation Maximization in Deep Neural Networks

要約

活性化最大化 (AM) は、最適な入力刺激を生成するよう努め、訓練されたディープ ニューラル ネットワークで高い応答を引き起こす特徴を明らかにします。
AM は説明可能な AI の重要な手法です。
我々は、AM が ReLU または Leaky ReLU を含む単純な関数に対して最適な入力刺激を生成できないことを実証し、AM の実際的な有用性と生成された画像の視覚的解釈に疑問を投げかけます。
この論文では、順方向パスでは元の (通常はゼロ) 傾きを維持しながら、逆方向パスでは大きな負の傾きを持つ Leaky ReLU を使用することに基づいたソリューションを提案します。
このアプローチにより、AM によって検出される最大値が大幅に増加します。
結果として得られる ProxyGrad アルゴリズムは、勾配計算のプロキシとしてセカンダリ ネットワークを使用するニューラル ネットワーク用の新しい最適化手法を実装します。
このプロキシ ネットワークは、元のネットワークよりも極大値が少なく、より単純な損失状況になるように設計されています。
私たちが選択したプロキシ ネットワークは、重みも含めて元のネットワークと同一のコピーであり、Leaky ReLU に明確な負の傾きがあります。
さらに、ProxyGrad を使用して分類用の畳み込みニューラル ネットワークの重みをトレーニングし、テストされたベンチマークの一部で従来のネットワークよりも優れたパフォーマンスを発揮できることを示します。

要約(オリジナル)

Activation maximization (AM) strives to generate optimal input stimuli, revealing features that trigger high responses in trained deep neural networks. AM is an important method of explainable AI. We demonstrate that AM fails to produce optimal input stimuli for simple functions containing ReLUs or Leaky ReLUs, casting doubt on the practical usefulness of AM and the visual interpretation of the generated images. This paper proposes a solution based on using Leaky ReLUs with a high negative slope in the backward pass while keeping the original, usually zero, slope in the forward pass. The approach significantly increases the maxima found by AM. The resulting ProxyGrad algorithm implements a novel optimization technique for neural networks that employs a secondary network as a proxy for gradient computation. This proxy network is designed to have a simpler loss landscape with fewer local maxima than the original network. Our chosen proxy network is an identical copy of the original network, including its weights, with distinct negative slopes in the Leaky ReLUs. Moreover, we show that ProxyGrad can be used to train the weights of Convolutional Neural Networks for classification such that, on some of the tested benchmarks, they outperform traditional networks.

arxiv情報

著者 Christoph Linse,Erhardt Barth,Thomas Martinetz
発行日 2024-10-22 12:38:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Leaky ReLUs That Differ in Forward and Backward Pass Facilitate Activation Maximization in Deep Neural Networks はコメントを受け付けていません

Feature Extraction for Generative Medical Imaging Evaluation: New Evidence Against an Evolving Trend

要約

FID (Fr\’echet Inception Distance) は、合成画像の品質を評価するために広く使用されている指標です。
ImageNet ベースの特徴抽出プログラムに依存しているため、医療画像への適用性は不明確です。
最近の傾向は、医療画像で訓練された特徴抽出器を通じて FID を医療画像に適応させることです。
私たちの研究では、ImageNet ベースの抽出プログラムが RadImageNet の抽出プログラムよりも一貫性があり、人間の判断と一致していることを実証することで、この慣行に異議を唱えています。
私たちは、11 個の ImageNet または RadImageNet でトレーニングされた特徴抽出器を使用して計算されたフレシェ距離 (FD) を使用して、4 つの医用画像モダリティと 4 つのデータ拡張技術にわたる 16 個の StyleGAN2 ネットワークを評価しました。
視覚的なチューリング テストによる人間の判断との比較により、ImageNet ベースの抽出プログラムは人間の判断と一致するランキングを生成し、ImageNet でトレーニングされた SwAV 抽出プログラムから導出された FD は専門家の評価と有意に相関していることが明らかになりました。
対照的に、RadImageNet ベースのランキングは不安定であり、人間の判断と矛盾していました。
私たちの発見は一般的な仮定に疑問を投げかけ、医療画像でトレーニングされた特徴抽出器が本質的に FD を改善するわけではなく、その信頼性を損なう可能性さえあるという新たな証拠を提供します。
コードは https://github.com/mckellwoodland/fid-med-eval で入手できます。

要約(オリジナル)

Fr\’echet Inception Distance (FID) is a widely used metric for assessing synthetic image quality. It relies on an ImageNet-based feature extractor, making its applicability to medical imaging unclear. A recent trend is to adapt FID to medical imaging through feature extractors trained on medical images. Our study challenges this practice by demonstrating that ImageNet-based extractors are more consistent and aligned with human judgment than their RadImageNet counterparts. We evaluated sixteen StyleGAN2 networks across four medical imaging modalities and four data augmentation techniques with Fr\’echet distances (FDs) computed using eleven ImageNet or RadImageNet-trained feature extractors. Comparison with human judgment via visual Turing tests revealed that ImageNet-based extractors produced rankings consistent with human judgment, with the FD derived from the ImageNet-trained SwAV extractor significantly correlating with expert evaluations. In contrast, RadImageNet-based rankings were volatile and inconsistent with human judgment. Our findings challenge prevailing assumptions, providing novel evidence that medical image-trained feature extractors do not inherently improve FDs and can even compromise their reliability. Our code is available at https://github.com/mckellwoodland/fid-med-eval.

arxiv情報

著者 McKell Woodland,Austin Castelo,Mais Al Taie,Jessica Albuquerque Marques Silva,Mohamed Eltaher,Frank Mohn,Alexander Shieh,Suprateek Kundu,Joshua P. Yung,Ankit B. Patel,Kristy K. Brock
発行日 2024-10-22 12:42:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Feature Extraction for Generative Medical Imaging Evaluation: New Evidence Against an Evolving Trend はコメントを受け付けていません

Toward Fairer Face Recognition Datasets

要約

顔認識と検証は、ディープ表現の導入によりパフォーマンスが向上した 2 つのコンピューター ビジョン タスクです。
しかし、顔データの機密性と実際のトレーニング データセットのバイアスによる倫理的、法的、技術的な課題がその開発を妨げています。
生成 AI は架空のアイデンティティを作成することでプライバシーに対処しますが、公平性の問題は依然として残ります。
生成されたトレーニング データセットに人口統計的属性のバランスをとるメカニズムを導入することで、公平性を促進します。
既存の実際のデータセット、生成された 3 つのトレーニング データセット、および拡散ベースのデータセットのバランスの取れたバージョンを実験します。
私たちは、正確さと公平性を同等に考慮し、属性の厳密な回帰ベースの統計分析を含む包括的な評価を提案します。
分析の結果、バランスを取ることで人口統計上の不公平が軽減されることがわかりました。
また、時間の経過とともに生成の精度が向上しているにもかかわらず、パフォーマンスのギャップは残ります。
提案されたバランシング手法と包括的な検証評価により、より公平かつ透明な顔認識と検証が促進されます。

要約(オリジナル)

Face recognition and verification are two computer vision tasks whose performance has progressed with the introduction of deep representations. However, ethical, legal, and technical challenges due to the sensitive character of face data and biases in real training datasets hinder their development. Generative AI addresses privacy by creating fictitious identities, but fairness problems persist. We promote fairness by introducing a demographic attributes balancing mechanism in generated training datasets. We experiment with an existing real dataset, three generated training datasets, and the balanced versions of a diffusion-based dataset. We propose a comprehensive evaluation that considers accuracy and fairness equally and includes a rigorous regression-based statistical analysis of attributes. The analysis shows that balancing reduces demographic unfairness. Also, a performance gap persists despite generation becoming more accurate with time. The proposed balancing method and comprehensive verification evaluation promote fairer and transparent face recognition and verification.

arxiv情報

著者 Alexandre Fournier-Mongieux,Michael Soumm,Adrian Popescu,Bertrand Luvison,Hervé Le Borgne
発行日 2024-10-22 12:46:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Toward Fairer Face Recognition Datasets はコメントを受け付けていません

Multi-Layer Gaussian Splatting for Immersive Anatomy Visualization

要約

医療画像の視覚化では、CT スキャンなどのボリューム医療データのパス トレースにより、本物のような 3 次元の視覚化が生成されます。
没入型 VR ディスプレイは、複雑な解剖学的構造の理解をさらに深めます。
従来の 2D スライスの診断品質を超えて、解剖学的構造のインタラクティブな 3D 評価を可能にし、医学教育と計画をサポートします。
ただし、高品質のビジュアライゼーションをリアルタイムでレンダリングすることは計算量が多く、モバイル ヘッドセットなどの計算に制約のあるデバイスでは現実的ではありません。
我々は、GS を利用して CT スキャンの効率的かつ静的な中間表現を作成する新しいアプローチを提案します。
階層化された GS 表現を導入し、重複を最小限に抑えながらさまざまな解剖学的構造を段階的に組み込み、GS トレーニングを拡張して非アクティブなガウス分布を削除します。
作成したモデルをレイヤー間のクラスタリングでさらに圧縮します。
私たちのアプローチは、解剖学的構造を維持しながらインタラクティブなフレーム レートを実現し、品質はターゲット ハードウェアに合わせて調整できます。
標準の GS と比較して、私たちの表現は、没入型パス トレースによって最初に可能になった探索的な品質の一部を保持しています。
レンダリング時にレイヤーの選択的なアクティブ化とクリッピングが可能になり、静的な GS モデルにある程度のインタラクティブ性が追加されます。
これにより、高い計算要求によりパス トレースされた医療ボリュームの使用が禁止されるようなシナリオが可能になる可能性があります。

要約(オリジナル)

In medical image visualization, path tracing of volumetric medical data like CT scans produces lifelike three-dimensional visualizations. Immersive VR displays can further enhance the understanding of complex anatomies. Going beyond the diagnostic quality of traditional 2D slices, they enable interactive 3D evaluation of anatomies, supporting medical education and planning. Rendering high-quality visualizations in real-time, however, is computationally intensive and impractical for compute-constrained devices like mobile headsets. We propose a novel approach utilizing GS to create an efficient but static intermediate representation of CT scans. We introduce a layered GS representation, incrementally including different anatomical structures while minimizing overlap and extending the GS training to remove inactive Gaussians. We further compress the created model with clustering across layers. Our approach achieves interactive frame rates while preserving anatomical structures, with quality adjustable to the target hardware. Compared to standard GS, our representation retains some of the explorative qualities initially enabled by immersive path tracing. Selective activation and clipping of layers are possible at rendering time, adding a degree of interactivity to otherwise static GS models. This could enable scenarios where high computational demands would otherwise prohibit using path-traced medical volumes.

arxiv情報

著者 Constantin Kleinbeck,Hannah Schieber,Klaus Engel,Ralf Gutjahr,Daniel Roth
発行日 2024-10-22 12:56:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | Multi-Layer Gaussian Splatting for Immersive Anatomy Visualization はコメントを受け付けていません

DPEC: Dual-Path Error Compensation Method for Enhanced Low-Light Image Clarity

要約

低照度の画像強調のタスクでは、深層学習ベースのアルゴリズムが従来の方法と比較して優位性と有効性を実証しています。
既存の深層学習アルゴリズムは主に Retinex 理論に基づいて提案されていますが、入力に存在するノイズと色の歪みを見落としており、最終結果で大幅なノイズの増幅と局所的な色の歪みが発生することがよくあります。
これに対処するために、私たちは、低光量条件での画質を向上させることを目的としたデュアルパス誤差補償法 (DPEC) を提案します。
DPEC は、ピクセルレベルの正確なエラー推定を実行して、微妙なピクセルの違いを正確に捕捉し、独立したノイズ除去を実行して、不要なノイズを効果的に除去します。
この方法では、局所的なテクスチャの詳細を維持し、ノイズの増幅を回避しながら、画像の明るさを復元します。
さらに、従来の CNN の長距離セマンティック情報の捕捉能力の限界を補うため、計算速度とリソース効率の両方を考慮して、VMamba アーキテクチャを DPEC のバックボーンに統合しました。
さらに、DPEC のトレーニングを制限するために HIS-Retinex 損失を導入し、画像の全体的な輝度分布が現実世界の条件により厳密に一致するようにしました。
包括的な定量的および定性的な実験結果は、当社のアルゴリズムが 6 つのベンチマーク テスト全体で最先端の手法を大幅に上回っていることを示しています。

要約(オリジナル)

For the task of low-light image enhancement, deep learning-based algorithms have demonstrated superiority and effectiveness compared to traditional methods. Existing deep learning algorithms are proposed mainly based on the Retinex theory but overlook the noise and color distortion present in the input, which frequently results in significant noise amplification and local color distortion in the final results. To address this, we propose a Dual-Path Error Compensation method (DPEC), which aims to improve image quality in low-light conditions. DPEC performs precise pixel-level error estimation, which accurately captures subtle pixels differences, and independent denoising, which effectively removes unnecessary noise. This method restores image brightness while preserving local texture details and avoiding noise amplification. Furthermore, to compensate for the traditional CNN’s limited ability to capture long-range semantic information and considering both computational speed and resource efficiency, we integrated the VMamba architecture into the backbone of DPEC. In addition, we introduced the HIS-Retinex loss to constrain the training of DPEC, ensuring that the overall brightness distribution of the images more closely aligns with real-world conditions. Comprehensive quantitative and qualitative experimental results demonstrate that our algorithm significantly outperforms state-of-the-art methods across six benchmark tests.

arxiv情報

著者 Shuang Wang,Qianwen Lu,Yihe Nie,Qingchuan Tao,Yanmei Yu
発行日 2024-10-22 13:04:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | DPEC: Dual-Path Error Compensation Method for Enhanced Low-Light Image Clarity はコメントを受け付けていません

Incremental Joint Learning of Depth, Pose and Implicit Scene Representation on Monocular Camera in Large-scale Scenes

要約

フォトリアルなビュー合成のための高密度シーン再構成は、VR/AR、自動運転車など、さまざまな用途に利用できます。
ただし、既存の手法のほとんどは、\textit{(a) 不正確な深度入力。} という 3 つの主要な課題により、大規模なシーンでは困難を伴います。現実世界の大規模シーンでは正確な深度入力を取得することは不可能です。
\textit{(b) 不正確な姿勢推定。} 既存のアプローチのほとんどは、正確な事前推定されたカメラの姿勢に依存しています。
\textit{(c) シーン表現能力が不十分です。} 単一のグローバル放射フィールドには、大規模なシーンに効果的に拡張する能力がありません。
この目的を達成するために、正確な深度、姿勢推定、および大規模なシーンの再構成を実現できる増分共同学習フレームワークを提案します。
ビジョントランスフォーマーベースのネットワークをバックボーンとして採用し、スケール情報推定のパフォーマンスを向上させます。
姿勢推定では、大規模なシーンで正確かつ堅牢なカメラ追跡を行うために、フィーチャメトリック バンドル調整 (FBA) メソッドが設計されています。
暗黙的なシーン表現の観点から、3D シーン表現のスケーラビリティを向上させるために、大規模シーン全体を複数の局所放射フィールドとして構築する増分シーン表現方法を提案します。
深度推定、姿勢推定、および大規模なシーンの再構成における私たちの方法の有効性と精度を実証するために、拡張実験が行われました。

要約(オリジナル)

Dense scene reconstruction for photo-realistic view synthesis has various applications, such as VR/AR, autonomous vehicles. However, most existing methods have difficulties in large-scale scenes due to three core challenges: \textit{(a) inaccurate depth input.} Accurate depth input is impossible to get in real-world large-scale scenes. \textit{(b) inaccurate pose estimation.} Most existing approaches rely on accurate pre-estimated camera poses. \textit{(c) insufficient scene representation capability.} A single global radiance field lacks the capacity to effectively scale to large-scale scenes. To this end, we propose an incremental joint learning framework, which can achieve accurate depth, pose estimation, and large-scale scene reconstruction. A vision transformer-based network is adopted as the backbone to enhance performance in scale information estimation. For pose estimation, a feature-metric bundle adjustment (FBA) method is designed for accurate and robust camera tracking in large-scale scenes. In terms of implicit scene representation, we propose an incremental scene representation method to construct the entire large-scale scene as multiple local radiance fields to enhance the scalability of 3D scene representation. Extended experiments have been conducted to demonstrate the effectiveness and accuracy of our method in depth estimation, pose estimation, and large-scale scene reconstruction.

arxiv情報

著者 Tianchen Deng,Nailin Wang,Chongdi Wang,Shenghai Yuan,Jingchuan Wang,Danwei Wang,Weidong Chen
発行日 2024-10-22 13:15:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Incremental Joint Learning of Depth, Pose and Implicit Scene Representation on Monocular Camera in Large-scale Scenes はコメントを受け付けていません

E-3DGS: Gaussian Splatting with Exposure and Motion Events

要約

最適な条件下で撮影された画像から神経放射場 (NeRF) を推定することは、視覚コミュニティで広く研究されてきました。
ただし、ロボット アプリケーションは、モーション ブラー、不十分な照明、高い計算オーバーヘッドなどの課題に直面することが多く、ナビゲーション、検査、シーンの視覚化などの下流のタスクに悪影響を及ぼします。
これらの課題に対処するために、我々は、イベントをモーション (カメラまたはオブジェクトの動きから) と露出 (カメラ露出から) に分割する新しいイベントベースのアプローチである E-3DGS を提案します。前者を使用して高速モーション シーンを処理し、後者を使用します。
イベントベースの 3D ガウス スプラッティング (3DGS) の高品質トレーニングと最適化のためにグレースケール画像を再構築します。
明示的なシーン表現の高品質な再構築のために、3DGS と露光イベントの新しい統合を導入します。
当社の多用途フレームワークは、3D 再構築のためにモーション イベントのみを操作したり、露光イベントを使用して品質を向上させたり、初期露光イベントとそれに続く高速モーション イベントで最適化することで品質と効果のバランスを取るハイブリッド モードを採用したりできます。
また、露出イベント、モーション イベント、カメラ キャリブレーション パラメーター、まばらな点群を含む現実世界の 3D データセットである EME-3D も紹介します。
私たちの方法は、イベントベースの NeRF よりも高速で再構成品質が高く、単一のイベント センサーを使用してイベントと RGB データを組み合わせる NeRF 方法よりもコスト効率が高くなります。
E-3DGS は、モーション イベントと露出イベントを組み合わせることで、厳しい条件下でもハードウェア要求が低くても堅牢なパフォーマンスを備えた、イベントベースの 3D 再構成の新しいベンチマークを設定します。
ソース コードとデータセットは https://github.com/MasterHow/E-3DGS で入手できます。

要約(オリジナル)

Estimating Neural Radiance Fields (NeRFs) from images captured under optimal conditions has been extensively explored in the vision community. However, robotic applications often face challenges such as motion blur, insufficient illumination, and high computational overhead, which adversely affect downstream tasks like navigation, inspection, and scene visualization. To address these challenges, we propose E-3DGS, a novel event-based approach that partitions events into motion (from camera or object movement) and exposure (from camera exposure), using the former to handle fast-motion scenes and using the latter to reconstruct grayscale images for high-quality training and optimization of event-based 3D Gaussian Splatting (3DGS). We introduce a novel integration of 3DGS with exposure events for high-quality reconstruction of explicit scene representations. Our versatile framework can operate on motion events alone for 3D reconstruction, enhance quality using exposure events, or adopt a hybrid mode that balances quality and effectiveness by optimizing with initial exposure events followed by high-speed motion events. We also introduce EME-3D, a real-world 3D dataset with exposure events, motion events, camera calibration parameters, and sparse point clouds. Our method is faster and delivers better reconstruction quality than event-based NeRF while being more cost-effective than NeRF methods that combine event and RGB data by using a single event sensor. By combining motion and exposure events, E-3DGS sets a new benchmark for event-based 3D reconstruction with robust performance in challenging conditions and lower hardware demands. The source code and dataset will be available at https://github.com/MasterHow/E-3DGS.

arxiv情報

著者 Xiaoting Yin,Hao Shi,Yuhan Bao,Zhenshan Bing,Yiyi Liao,Kailun Yang,Kaiwei Wang
発行日 2024-10-22 13:17:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, eess.IV | E-3DGS: Gaussian Splatting with Exposure and Motion Events はコメントを受け付けていません

AGSENet: A Robust Road Ponding Detection Method for Proactive Traffic Safety

要約

蔓延する交通の危険である道路の池水は、車両のコントロールを失い、軽いフェンダーの曲がりから重大な衝突に至るまで、さまざまな事故を引き起こすため、交通の安全に重大な脅威をもたらします。
既存の技術では、道路の複雑なテクスチャや反射特性の影響を受ける池の色が変化するため、道路の池を正確に識別するのが困難です。
この課題に対処するために、私たちは、プロアクティブな道路の池の検出と交通安全の改善のための、Self-Attendance-based Global Saliency-Enhanced Network (AGSENet) と呼ばれる新しいアプローチを提案します。
AGSENet には、Channel Saliency Information Focus (CSIF) モジュールおよび Spatial Saliency Information Enhancement (SSIE) モジュールを介した顕著性検出技術が組み込まれています。
エンコーダに統合された CSIF モジュールは、セルフ アテンションを使用して、空間情報とチャネル情報を融合することで同様の特徴を強調表示します。
デコーダに組み込まれた SSIE モジュールは、さまざまな特徴レベル間の相関を活用することでエッジ特徴を洗練し、ノイズを低減します。
正確で信頼性の高い評価を保証するために、Puddle-1000 データセット内の重大なラベルの誤りと注釈の欠落を修正しました。
さらに、低照度および霧の多い状況での道路の池を検出するために、それぞれ霧の水たまりデータセットと夜間水たまりデータセットを構築しました。
実験結果は、AGSENet が既存の手法より優れたパフォーマンスを示し、Puddle-1000、Foggy-Puddle、および Night-Puddle データセットでそれぞれ 2.03\%、0.62\%、および 1.06\% の IoU 向上を達成し、新しい状態を設定したことを示しています。
この分野の芸術。
最後に、エッジ コンピューティング デバイスでのアルゴリズムの信頼性を検証しました。
この研究は、道路交通安全における事前警告研究に貴重な参考資料を提供します。

要約(オリジナル)

Road ponding, a prevalent traffic hazard, poses a serious threat to road safety by causing vehicles to lose control and leading to accidents ranging from minor fender benders to severe collisions. Existing technologies struggle to accurately identify road ponding due to complex road textures and variable ponding coloration influenced by reflection characteristics. To address this challenge, we propose a novel approach called Self-Attention-based Global Saliency-Enhanced Network (AGSENet) for proactive road ponding detection and traffic safety improvement. AGSENet incorporates saliency detection techniques through the Channel Saliency Information Focus (CSIF) and Spatial Saliency Information Enhancement (SSIE) modules. The CSIF module, integrated into the encoder, employs self-attention to highlight similar features by fusing spatial and channel information. The SSIE module, embedded in the decoder, refines edge features and reduces noise by leveraging correlations across different feature levels. To ensure accurate and reliable evaluation, we corrected significant mislabeling and missing annotations in the Puddle-1000 dataset. Additionally, we constructed the Foggy-Puddle and Night-Puddle datasets for road ponding detection in low-light and foggy conditions, respectively. Experimental results demonstrate that AGSENet outperforms existing methods, achieving IoU improvements of 2.03\%, 0.62\%, and 1.06\% on the Puddle-1000, Foggy-Puddle, and Night-Puddle datasets, respectively, setting a new state-of-the-art in this field. Finally, we verified the algorithm’s reliability on edge computing devices. This work provides a valuable reference for proactive warning research in road traffic safety.

arxiv情報

著者 Ronghui Zhang,Shangyu Yang,Dakang Lyu,Zihan Wang,Junzhou Chen,Yilong Ren,Bolin Gao,Zhihan Lv
発行日 2024-10-22 13:21:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | AGSENet: A Robust Road Ponding Detection Method for Proactive Traffic Safety はコメントを受け付けていません

Joint Point Cloud Upsampling and Cleaning with Octree-based CNNs

要約

まばらなデータやノイズの多いデータから高密度で均一に分散された点群を回復することは、依然として大きな課題です。
最近、これらのタスクは大幅に進歩しましたが、通常はモジュールやネットワーク アーキテクチャがますます複雑になり、推論時間が長くなり、リソースが大量に消費されます。
代わりに、私たちはシンプルさを重視し、点群のアップサンプリングとクリーニングを一緒に行うためのシンプルかつ効率的な方法を紹介します。
私たちの方法では、既製のオクツリーベースの 3D U-Net (OUNet) にわずかな変更を加えて利用し、単一ネットワーク内でアップサンプリングとクリーニングのタスクを可能にします。
私たちのネットワークは、以前の作品のように各点群パッチを処理するのではなく、各入力点群を全体として直接処理するため、実装が大幅に容易になり、少なくとも 47 倍高速な推論が実現します。
広範な実験により、私たちの方法が一連のベンチマークで大きな効率上の利点の下で最先端のパフォーマンスを達成できることが実証されました。
私たちは、私たちの手法がシンプルなベースラインを提供し、研究者が点群のアップサンプリングとクリーニングに関する手法設計を再考するきっかけとなることを期待しています。

要約(オリジナル)

Recovering dense and uniformly distributed point clouds from sparse or noisy data remains a significant challenge. Recently, great progress has been made on these tasks, but usually at the cost of increasingly intricate modules or complicated network architectures, leading to long inference time and huge resource consumption. Instead, we embrace simplicity and present a simple yet efficient method for jointly upsampling and cleaning point clouds. Our method leverages an off-the-shelf octree-based 3D U-Net (OUNet) with minor modifications, enabling the upsampling and cleaning tasks within a single network. Our network directly processes each input point cloud as a whole instead of processing each point cloud patch as in previous works, which significantly eases the implementation and brings at least 47 times faster inference. Extensive experiments demonstrate that our method achieves state-of-the-art performances under huge efficiency advantages on a series of benchmarks. We expect our method to serve simple baselines and inspire researchers to rethink the method design on point cloud upsampling and cleaning.

arxiv情報

著者 Jihe Li,Bo Pang,Peng-Shuai Wang
発行日 2024-10-22 13:23:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Joint Point Cloud Upsampling and Cleaning with Octree-based CNNs はコメントを受け付けていません

Slicing Through Bias: Explaining Performance Gaps in Medical Image Analysis using Slice Discovery Methods

要約

機械学習モデルは、医療画像分析において全体的に高い精度を達成しました。
しかし、特定の患者グループにおけるパフォーマンスの格差は、臨床での有用性、安全性、公平性に課題をもたらします。
これは、性別、年齢、疾患のサブタイプに基づく患者グループなどの既知の患者グループだけでなく、これまで知られていなかったラベルのないグループにも影響を与える可能性があります。
さらに、このように観察されたパフォーマンスの差異の根本原因は、多くの場合解明が困難であり、軽減努力の妨げとなっています。
このペーパーでは、これらの問題に対処するために、スライス発見法 (SDM) を活用して、解釈可能なパフォーマンスの低いデータのサブセットを特定し、観察されたパフォーマンスの差異の原因に関する仮説を立てます。
新しい SDM を導入し、胸部 X 線写真からの気胸と無気肺の分類に関するケーススタディに適用します。
私たちの研究は、仮説構築における SDM の有効性を実証し、広く使用されている胸部 X 線データセットとモデルにおける男性患者と女性患者の間でこれまで観察されていたが説明されていなかったパフォーマンスの差異の説明をもたらしました。
私たちの調査結果は、それぞれ胸腔ドレーンとECGワイヤーの存在を通じて、両方の分類タスクにおけるショートカット学習を示しています。
これらのショートカット機能の普及率における性別による違いは、観察された分類パフォーマンスのギャップを引き起こしているようで、これはショートカット学習とモデルの公平性分析の間のこれまで過小評価されていた相互作用を表しています。

要約(オリジナル)

Machine learning models have achieved high overall accuracy in medical image analysis. However, performance disparities on specific patient groups pose challenges to their clinical utility, safety, and fairness. This can affect known patient groups – such as those based on sex, age, or disease subtype – as well as previously unknown and unlabeled groups. Furthermore, the root cause of such observed performance disparities is often challenging to uncover, hindering mitigation efforts. In this paper, to address these issues, we leverage Slice Discovery Methods (SDMs) to identify interpretable underperforming subsets of data and formulate hypotheses regarding the cause of observed performance disparities. We introduce a novel SDM and apply it in a case study on the classification of pneumothorax and atelectasis from chest x-rays. Our study demonstrates the effectiveness of SDMs in hypothesis formulation and yields an explanation of previously observed but unexplained performance disparities between male and female patients in widely used chest X-ray datasets and models. Our findings indicate shortcut learning in both classification tasks, through the presence of chest drains and ECG wires, respectively. Sex-based differences in the prevalence of these shortcut features appear to cause the observed classification performance gap, representing a previously underappreciated interaction between shortcut learning and model fairness analyses.

arxiv情報

著者 Vincent Olesen,Nina Weng,Aasa Feragen,Eike Petersen
発行日 2024-10-22 13:32:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.CY, cs.LG | Slicing Through Bias: Explaining Performance Gaps in Medical Image Analysis using Slice Discovery Methods はコメントを受け付けていません