DPEC: Dual-Path Error Compensation Method for Enhanced Low-Light Image Clarity

要約

低照度の画像強調のタスクでは、深層学習ベースのアルゴリズムが従来の方法と比較して優位性と有効性を実証しています。
既存の深層学習アルゴリズムは主に Retinex 理論に基づいて提案されていますが、入力に存在するノイズと色の歪みを見落としており、最終結果で大幅なノイズの増幅と局所的な色の歪みが発生することがよくあります。
これに対処するために、私たちは、低光量条件での画質を向上させることを目的としたデュアルパス誤差補償法 (DPEC) を提案します。
DPEC は、ピクセルレベルの正確なエラー推定を実行して、微妙なピクセルの違いを正確に捕捉し、独立したノイズ除去を実行して、不要なノイズを効果的に除去します。
この方法では、局所的なテクスチャの詳細を維持し、ノイズの増幅を回避しながら、画像の明るさを復元します。
さらに、従来の CNN の長距離セマンティック情報の捕捉能力の限界を補うため、計算速度とリソース効率の両方を考慮して、VMamba アーキテクチャを DPEC のバックボーンに統合しました。
さらに、DPEC のトレーニングを制限するために HIS-Retinex 損失を導入し、画像の全体的な輝度分布が現実世界の条件により厳密に一致するようにしました。
包括的な定量的および定性的な実験結果は、当社のアルゴリズムが 6 つのベンチマーク テスト全体で最先端の手法を大幅に上回っていることを示しています。

要約(オリジナル)

For the task of low-light image enhancement, deep learning-based algorithms have demonstrated superiority and effectiveness compared to traditional methods. Existing deep learning algorithms are proposed mainly based on the Retinex theory but overlook the noise and color distortion present in the input, which frequently results in significant noise amplification and local color distortion in the final results. To address this, we propose a Dual-Path Error Compensation method (DPEC), which aims to improve image quality in low-light conditions. DPEC performs precise pixel-level error estimation, which accurately captures subtle pixels differences, and independent denoising, which effectively removes unnecessary noise. This method restores image brightness while preserving local texture details and avoiding noise amplification. Furthermore, to compensate for the traditional CNN’s limited ability to capture long-range semantic information and considering both computational speed and resource efficiency, we integrated the VMamba architecture into the backbone of DPEC. In addition, we introduced the HIS-Retinex loss to constrain the training of DPEC, ensuring that the overall brightness distribution of the images more closely aligns with real-world conditions. Comprehensive quantitative and qualitative experimental results demonstrate that our algorithm significantly outperforms state-of-the-art methods across six benchmark tests.

arxiv情報

著者 Shuang Wang,Qianwen Lu,Yihe Nie,Qingchuan Tao,Yanmei Yu
発行日 2024-10-22 13:04:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | DPEC: Dual-Path Error Compensation Method for Enhanced Low-Light Image Clarity はコメントを受け付けていません

Incremental Joint Learning of Depth, Pose and Implicit Scene Representation on Monocular Camera in Large-scale Scenes

要約

フォトリアルなビュー合成のための高密度シーン再構成は、VR/AR、自動運転車など、さまざまな用途に利用できます。
ただし、既存の手法のほとんどは、\textit{(a) 不正確な深度入力。} という 3 つの主要な課題により、大規模なシーンでは困難を伴います。現実世界の大規模シーンでは正確な深度入力を取得することは不可能です。
\textit{(b) 不正確な姿勢推定。} 既存のアプローチのほとんどは、正確な事前推定されたカメラの姿勢に依存しています。
\textit{(c) シーン表現能力が不十分です。} 単一のグローバル放射フィールドには、大規模なシーンに効果的に拡張する能力がありません。
この目的を達成するために、正確な深度、姿勢推定、および大規模なシーンの再構成を実現できる増分共同学習フレームワークを提案します。
ビジョントランスフォーマーベースのネットワークをバックボーンとして採用し、スケール情報推定のパフォーマンスを向上させます。
姿勢推定では、大規模なシーンで正確かつ堅牢なカメラ追跡を行うために、フィーチャメトリック バンドル調整 (FBA) メソッドが設計されています。
暗黙的なシーン表現の観点から、3D シーン表現のスケーラビリティを向上させるために、大規模シーン全体を複数の局所放射フィールドとして構築する増分シーン表現方法を提案します。
深度推定、姿勢推定、および大規模なシーンの再構成における私たちの方法の有効性と精度を実証するために、拡張実験が行われました。

要約(オリジナル)

Dense scene reconstruction for photo-realistic view synthesis has various applications, such as VR/AR, autonomous vehicles. However, most existing methods have difficulties in large-scale scenes due to three core challenges: \textit{(a) inaccurate depth input.} Accurate depth input is impossible to get in real-world large-scale scenes. \textit{(b) inaccurate pose estimation.} Most existing approaches rely on accurate pre-estimated camera poses. \textit{(c) insufficient scene representation capability.} A single global radiance field lacks the capacity to effectively scale to large-scale scenes. To this end, we propose an incremental joint learning framework, which can achieve accurate depth, pose estimation, and large-scale scene reconstruction. A vision transformer-based network is adopted as the backbone to enhance performance in scale information estimation. For pose estimation, a feature-metric bundle adjustment (FBA) method is designed for accurate and robust camera tracking in large-scale scenes. In terms of implicit scene representation, we propose an incremental scene representation method to construct the entire large-scale scene as multiple local radiance fields to enhance the scalability of 3D scene representation. Extended experiments have been conducted to demonstrate the effectiveness and accuracy of our method in depth estimation, pose estimation, and large-scale scene reconstruction.

arxiv情報

著者 Tianchen Deng,Nailin Wang,Chongdi Wang,Shenghai Yuan,Jingchuan Wang,Danwei Wang,Weidong Chen
発行日 2024-10-22 13:15:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Incremental Joint Learning of Depth, Pose and Implicit Scene Representation on Monocular Camera in Large-scale Scenes はコメントを受け付けていません

E-3DGS: Gaussian Splatting with Exposure and Motion Events

要約

最適な条件下で撮影された画像から神経放射場 (NeRF) を推定することは、視覚コミュニティで広く研究されてきました。
ただし、ロボット アプリケーションは、モーション ブラー、不十分な照明、高い計算オーバーヘッドなどの課題に直面することが多く、ナビゲーション、検査、シーンの視覚化などの下流のタスクに悪影響を及ぼします。
これらの課題に対処するために、我々は、イベントをモーション (カメラまたはオブジェクトの動きから) と露出 (カメラ露出から) に分割する新しいイベントベースのアプローチである E-3DGS を提案します。前者を使用して高速モーション シーンを処理し、後者を使用します。
イベントベースの 3D ガウス スプラッティング (3DGS) の高品質トレーニングと最適化のためにグレースケール画像を再構築します。
明示的なシーン表現の高品質な再構築のために、3DGS と露光イベントの新しい統合を導入します。
当社の多用途フレームワークは、3D 再構築のためにモーション イベントのみを操作したり、露光イベントを使用して品質を向上させたり、初期露光イベントとそれに続く高速モーション イベントで最適化することで品質と効果のバランスを取るハイブリッド モードを採用したりできます。
また、露出イベント、モーション イベント、カメラ キャリブレーション パラメーター、まばらな点群を含む現実世界の 3D データセットである EME-3D も紹介します。
私たちの方法は、イベントベースの NeRF よりも高速で再構成品質が高く、単一のイベント センサーを使用してイベントと RGB データを組み合わせる NeRF 方法よりもコスト効率が高くなります。
E-3DGS は、モーション イベントと露出イベントを組み合わせることで、厳しい条件下でもハードウェア要求が低くても堅牢なパフォーマンスを備えた、イベントベースの 3D 再構成の新しいベンチマークを設定します。
ソース コードとデータセットは https://github.com/MasterHow/E-3DGS で入手できます。

要約(オリジナル)

Estimating Neural Radiance Fields (NeRFs) from images captured under optimal conditions has been extensively explored in the vision community. However, robotic applications often face challenges such as motion blur, insufficient illumination, and high computational overhead, which adversely affect downstream tasks like navigation, inspection, and scene visualization. To address these challenges, we propose E-3DGS, a novel event-based approach that partitions events into motion (from camera or object movement) and exposure (from camera exposure), using the former to handle fast-motion scenes and using the latter to reconstruct grayscale images for high-quality training and optimization of event-based 3D Gaussian Splatting (3DGS). We introduce a novel integration of 3DGS with exposure events for high-quality reconstruction of explicit scene representations. Our versatile framework can operate on motion events alone for 3D reconstruction, enhance quality using exposure events, or adopt a hybrid mode that balances quality and effectiveness by optimizing with initial exposure events followed by high-speed motion events. We also introduce EME-3D, a real-world 3D dataset with exposure events, motion events, camera calibration parameters, and sparse point clouds. Our method is faster and delivers better reconstruction quality than event-based NeRF while being more cost-effective than NeRF methods that combine event and RGB data by using a single event sensor. By combining motion and exposure events, E-3DGS sets a new benchmark for event-based 3D reconstruction with robust performance in challenging conditions and lower hardware demands. The source code and dataset will be available at https://github.com/MasterHow/E-3DGS.

arxiv情報

著者 Xiaoting Yin,Hao Shi,Yuhan Bao,Zhenshan Bing,Yiyi Liao,Kailun Yang,Kaiwei Wang
発行日 2024-10-22 13:17:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, eess.IV | E-3DGS: Gaussian Splatting with Exposure and Motion Events はコメントを受け付けていません

AGSENet: A Robust Road Ponding Detection Method for Proactive Traffic Safety

要約

蔓延する交通の危険である道路の池水は、車両のコントロールを失い、軽いフェンダーの曲がりから重大な衝突に至るまで、さまざまな事故を引き起こすため、交通の安全に重大な脅威をもたらします。
既存の技術では、道路の複雑なテクスチャや反射特性の影響を受ける池の色が変化するため、道路の池を正確に識別するのが困難です。
この課題に対処するために、私たちは、プロアクティブな道路の池の検出と交通安全の改善のための、Self-Attendance-based Global Saliency-Enhanced Network (AGSENet) と呼ばれる新しいアプローチを提案します。
AGSENet には、Channel Saliency Information Focus (CSIF) モジュールおよび Spatial Saliency Information Enhancement (SSIE) モジュールを介した顕著性検出技術が組み込まれています。
エンコーダに統合された CSIF モジュールは、セルフ アテンションを使用して、空間情報とチャネル情報を融合することで同様の特徴を強調表示します。
デコーダに組み込まれた SSIE モジュールは、さまざまな特徴レベル間の相関を活用することでエッジ特徴を洗練し、ノイズを低減します。
正確で信頼性の高い評価を保証するために、Puddle-1000 データセット内の重大なラベルの誤りと注釈の欠落を修正しました。
さらに、低照度および霧の多い状況での道路の池を検出するために、それぞれ霧の水たまりデータセットと夜間水たまりデータセットを構築しました。
実験結果は、AGSENet が既存の手法より優れたパフォーマンスを示し、Puddle-1000、Foggy-Puddle、および Night-Puddle データセットでそれぞれ 2.03\%、0.62\%、および 1.06\% の IoU 向上を達成し、新しい状態を設定したことを示しています。
この分野の芸術。
最後に、エッジ コンピューティング デバイスでのアルゴリズムの信頼性を検証しました。
この研究は、道路交通安全における事前警告研究に貴重な参考資料を提供します。

要約(オリジナル)

Road ponding, a prevalent traffic hazard, poses a serious threat to road safety by causing vehicles to lose control and leading to accidents ranging from minor fender benders to severe collisions. Existing technologies struggle to accurately identify road ponding due to complex road textures and variable ponding coloration influenced by reflection characteristics. To address this challenge, we propose a novel approach called Self-Attention-based Global Saliency-Enhanced Network (AGSENet) for proactive road ponding detection and traffic safety improvement. AGSENet incorporates saliency detection techniques through the Channel Saliency Information Focus (CSIF) and Spatial Saliency Information Enhancement (SSIE) modules. The CSIF module, integrated into the encoder, employs self-attention to highlight similar features by fusing spatial and channel information. The SSIE module, embedded in the decoder, refines edge features and reduces noise by leveraging correlations across different feature levels. To ensure accurate and reliable evaluation, we corrected significant mislabeling and missing annotations in the Puddle-1000 dataset. Additionally, we constructed the Foggy-Puddle and Night-Puddle datasets for road ponding detection in low-light and foggy conditions, respectively. Experimental results demonstrate that AGSENet outperforms existing methods, achieving IoU improvements of 2.03\%, 0.62\%, and 1.06\% on the Puddle-1000, Foggy-Puddle, and Night-Puddle datasets, respectively, setting a new state-of-the-art in this field. Finally, we verified the algorithm’s reliability on edge computing devices. This work provides a valuable reference for proactive warning research in road traffic safety.

arxiv情報

著者 Ronghui Zhang,Shangyu Yang,Dakang Lyu,Zihan Wang,Junzhou Chen,Yilong Ren,Bolin Gao,Zhihan Lv
発行日 2024-10-22 13:21:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | AGSENet: A Robust Road Ponding Detection Method for Proactive Traffic Safety はコメントを受け付けていません

Joint Point Cloud Upsampling and Cleaning with Octree-based CNNs

要約

まばらなデータやノイズの多いデータから高密度で均一に分散された点群を回復することは、依然として大きな課題です。
最近、これらのタスクは大幅に進歩しましたが、通常はモジュールやネットワーク アーキテクチャがますます複雑になり、推論時間が長くなり、リソースが大量に消費されます。
代わりに、私たちはシンプルさを重視し、点群のアップサンプリングとクリーニングを一緒に行うためのシンプルかつ効率的な方法を紹介します。
私たちの方法では、既製のオクツリーベースの 3D U-Net (OUNet) にわずかな変更を加えて利用し、単一ネットワーク内でアップサンプリングとクリーニングのタスクを可能にします。
私たちのネットワークは、以前の作品のように各点群パッチを処理するのではなく、各入力点群を全体として直接処理するため、実装が大幅に容易になり、少なくとも 47 倍高速な推論が実現します。
広範な実験により、私たちの方法が一連のベンチマークで大きな効率上の利点の下で最先端のパフォーマンスを達成できることが実証されました。
私たちは、私たちの手法がシンプルなベースラインを提供し、研究者が点群のアップサンプリングとクリーニングに関する手法設計を再考するきっかけとなることを期待しています。

要約(オリジナル)

Recovering dense and uniformly distributed point clouds from sparse or noisy data remains a significant challenge. Recently, great progress has been made on these tasks, but usually at the cost of increasingly intricate modules or complicated network architectures, leading to long inference time and huge resource consumption. Instead, we embrace simplicity and present a simple yet efficient method for jointly upsampling and cleaning point clouds. Our method leverages an off-the-shelf octree-based 3D U-Net (OUNet) with minor modifications, enabling the upsampling and cleaning tasks within a single network. Our network directly processes each input point cloud as a whole instead of processing each point cloud patch as in previous works, which significantly eases the implementation and brings at least 47 times faster inference. Extensive experiments demonstrate that our method achieves state-of-the-art performances under huge efficiency advantages on a series of benchmarks. We expect our method to serve simple baselines and inspire researchers to rethink the method design on point cloud upsampling and cleaning.

arxiv情報

著者 Jihe Li,Bo Pang,Peng-Shuai Wang
発行日 2024-10-22 13:23:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Joint Point Cloud Upsampling and Cleaning with Octree-based CNNs はコメントを受け付けていません

Slicing Through Bias: Explaining Performance Gaps in Medical Image Analysis using Slice Discovery Methods

要約

機械学習モデルは、医療画像分析において全体的に高い精度を達成しました。
しかし、特定の患者グループにおけるパフォーマンスの格差は、臨床での有用性、安全性、公平性に課題をもたらします。
これは、性別、年齢、疾患のサブタイプに基づく患者グループなどの既知の患者グループだけでなく、これまで知られていなかったラベルのないグループにも影響を与える可能性があります。
さらに、このように観察されたパフォーマンスの差異の根本原因は、多くの場合解明が困難であり、軽減努力の妨げとなっています。
このペーパーでは、これらの問題に対処するために、スライス発見法 (SDM) を活用して、解釈可能なパフォーマンスの低いデータのサブセットを特定し、観察されたパフォーマンスの差異の原因に関する仮説を立てます。
新しい SDM を導入し、胸部 X 線写真からの気胸と無気肺の分類に関するケーススタディに適用します。
私たちの研究は、仮説構築における SDM の有効性を実証し、広く使用されている胸部 X 線データセットとモデルにおける男性患者と女性患者の間でこれまで観察されていたが説明されていなかったパフォーマンスの差異の説明をもたらしました。
私たちの調査結果は、それぞれ胸腔ドレーンとECGワイヤーの存在を通じて、両方の分類タスクにおけるショートカット学習を示しています。
これらのショートカット機能の普及率における性別による違いは、観察された分類パフォーマンスのギャップを引き起こしているようで、これはショートカット学習とモデルの公平性分析の間のこれまで過小評価されていた相互作用を表しています。

要約(オリジナル)

Machine learning models have achieved high overall accuracy in medical image analysis. However, performance disparities on specific patient groups pose challenges to their clinical utility, safety, and fairness. This can affect known patient groups – such as those based on sex, age, or disease subtype – as well as previously unknown and unlabeled groups. Furthermore, the root cause of such observed performance disparities is often challenging to uncover, hindering mitigation efforts. In this paper, to address these issues, we leverage Slice Discovery Methods (SDMs) to identify interpretable underperforming subsets of data and formulate hypotheses regarding the cause of observed performance disparities. We introduce a novel SDM and apply it in a case study on the classification of pneumothorax and atelectasis from chest x-rays. Our study demonstrates the effectiveness of SDMs in hypothesis formulation and yields an explanation of previously observed but unexplained performance disparities between male and female patients in widely used chest X-ray datasets and models. Our findings indicate shortcut learning in both classification tasks, through the presence of chest drains and ECG wires, respectively. Sex-based differences in the prevalence of these shortcut features appear to cause the observed classification performance gap, representing a previously underappreciated interaction between shortcut learning and model fairness analyses.

arxiv情報

著者 Vincent Olesen,Nina Weng,Aasa Feragen,Eike Petersen
発行日 2024-10-22 13:32:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.CY, cs.LG | Slicing Through Bias: Explaining Performance Gaps in Medical Image Analysis using Slice Discovery Methods はコメントを受け付けていません

Exploring Diversity-based Active Learning for 3D Object Detection in Autonomous Driving

要約

3D 物体検出は、自動運転車 (AV) における大きな可能性があるため、最近大きな注目を集めています。
深層学習ベースのオブジェクト検出器の成功は、大規模なアノテーション付きデータセットの利用可能性にかかっていますが、特に 3D バウンディング ボックス アノテーションの場合、コンパイルに時間と費用がかかります。
この研究では、アノテーションの負担を軽減する潜在的なソリューションとして、多様性に基づくアクティブ ラーニング (AL) を調査します。
注釈の予算が限られているため、人間が注釈を付けるために最も有益なフレームとオブジェクトのみが自動的に選択されます。
技術的には、AV データセットで提供されるマルチモーダル情報を利用し、選択されたサンプルの空間的および時間的多様性を強制する新しい取得関数を提案します。
フレームと 3D バウンディング ボックスの両方にアノテーションを付けるための現実的なコストが考慮される、現実的なアノテーション コスト測定の下で、提案された方法を他の AL 戦略に対してベンチマークします。
nuScenes データセットに対する提案手法の有効性を実証し、既存の AL 戦略を大幅に上回るパフォーマンスを示します。
コードは https://github.com/Linkon87/Exploring-Diversity-based-Active-Learning-for-3D-Object-Detection-in-Autonomous-Driving で入手できます。

要約(オリジナル)

3D object detection has recently received much attention due to its great potential in autonomous vehicle (AV). The success of deep learning based object detectors relies on the availability of large-scale annotated datasets, which is time-consuming and expensive to compile, especially for 3D bounding box annotation. In this work, we investigate diversity-based active learning (AL) as a potential solution to alleviate the annotation burden. Given limited annotation budget, only the most informative frames and objects are automatically selected for human to annotate. Technically, we take the advantage of the multimodal information provided in an AV dataset, and propose a novel acquisition function that enforces spatial and temporal diversity in the selected samples. We benchmark the proposed method against other AL strategies under realistic annotation cost measurement, where the realistic costs for annotating a frame and a 3D bounding box are both taken into consideration. We demonstrate the effectiveness of the proposed method on the nuScenes dataset and show that it outperforms existing AL strategies significantly. Code is available at https://github.com/Linkon87/Exploring-Diversity-based-Active-Learning-for-3D-Object-Detection-in-Autonomous-Driving

arxiv情報

著者 Jinpeng Lin,Zhihao Liang,Shengheng Deng,Lile Cai,Tao Jiang,Tianrui Li,Kui Jia,Xun Xu
発行日 2024-10-22 13:34:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Exploring Diversity-based Active Learning for 3D Object Detection in Autonomous Driving はコメントを受け付けていません

SPVSoAP3D: A Second-order Average Pooling Approach to enhance 3D Place Recognition in Horticultural Environments

要約

3D LiDAR ベースの場所認識は、都市環境では広く研究されていますが、農業環境ではまだ研究されていません。
都市環境とは異なり、レーザー光線の透過性を特徴とする園芸環境では、LiDAR スキャンがまばらで重複し、次善のジオメトリが生成されます。
この現象は、行内および行間の記述子のあいまいさにつながります。
この研究では、SPVSoAP3D を導入することでこの課題に対処します。SPVSoAP3D は、ボクセルベースの特徴抽出ネットワークと、記述子強化ステージによって補完される 2 次平均プーリング演算子に基づく集約手法を組み合わせた新しいモデリング アプローチです。
さらに、園芸環境に由来する 2 つの新しい配列を導入することにより、既存の HORTO-3DLM データセットを強化します。
新しく導入されたシーケンスと既存の HORTO-3DLM データセットの両方で相互検証プロトコルを利用して、OverlapTransformer、PointNetVLAD、LOGG3D-Net などの最先端 (SOTA) モデルに対する SPVSoAP3D のパフォーマンスを評価します。
この結果は、max 演算子や他の 1 次プーリング手法と比較して、average 演算子の方が園芸環境により適していることを示しています。
さらに、結果は記述子の強化段階によってもたらされた改善を強調しています。

要約(オリジナル)

3D LiDAR-based place recognition has been extensively researched in urban environments, yet it remains underexplored in agricultural settings. Unlike urban contexts, horticultural environments, characterized by their permeability to laser beams, result in sparse and overlapping LiDAR scans with suboptimal geometries. This phenomenon leads to intra- and inter-row descriptor ambiguity. In this work, we address this challenge by introducing SPVSoAP3D, a novel modeling approach that combines a voxel-based feature extraction network with an aggregation technique based on a second-order average pooling operator, complemented by a descriptor enhancement stage. Furthermore, we augment the existing HORTO-3DLM dataset by introducing two new sequences derived from horticultural environments. We evaluate the performance of SPVSoAP3D against state-of-the-art (SOTA) models, including OverlapTransformer, PointNetVLAD, and LOGG3D-Net, utilizing a cross-validation protocol on both the newly introduced sequences and the existing HORTO-3DLM dataset. The findings indicate that the average operator is more suitable for horticultural environments compared to the max operator and other first-order pooling techniques. Additionally, the results highlight the improvements brought by the descriptor enhancement stage.

arxiv情報

著者 T. Barros,C. Premebida,S. Aravecchia,C. Pradalier,U. J. Nunes
発行日 2024-10-22 13:37:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SPVSoAP3D: A Second-order Average Pooling Approach to enhance 3D Place Recognition in Horticultural Environments はコメントを受け付けていません

LFME: A Simple Framework for Learning from Multiple Experts in Domain Generalization

要約

ドメイン一般化 (DG) 手法は、複数のソース ドメインからのトレーニング データを使用して、目に見えないターゲット ドメインで良好なパフォーマンスを維持することを目的としています。
特定の状況では成功が見られますが、ほとんどのシナリオでベースラインを強化することは依然として困難です。
この作業では、ターゲット モデルをすべてのソース ドメインのエキスパートにして DG を改善することを目的とした、複数のエキスパートからの学習 (LFME) と呼ばれる、シンプルかつ効果的なフレームワークが導入されています。
具体的には、LFME は、推論で使用されるターゲット モデルを学習することに加えて、さまざまな領域に特化した複数の専門家もトレーニングします。その出力確率は、ターゲット モデルのロジットを正則化するだけで専門的なガイダンスを提供します。
フレームワークを深く掘り下げると、導入されたロジット正則化項が、ターゲット モデルがより多くの情報を利用できるようにし、トレーニング中に専門家からハード サンプルをマイニングできるようにする効果を暗黙的に提供していることがわかります。
さまざまな DG タスクのベンチマークに関する広範な実験により、LFME がベースラインに対して一貫して有益であり、既存の技術と同等のパフォーマンスを達成できることが実証されました。
コードは~\url{https://github.com/liangchen527/LFME}で入手できます。

要約(オリジナル)

Domain generalization (DG) methods aim to maintain good performance in an unseen target domain by using training data from multiple source domains. While success on certain occasions are observed, enhancing the baseline across most scenarios remains challenging. This work introduces a simple yet effective framework, dubbed learning from multiple experts (LFME), that aims to make the target model an expert in all source domains to improve DG. Specifically, besides learning the target model used in inference, LFME will also train multiple experts specialized in different domains, whose output probabilities provide professional guidance by simply regularizing the logit of the target model. Delving deep into the framework, we reveal that the introduced logit regularization term implicitly provides effects of enabling the target model to harness more information, and mining hard samples from the experts during training. Extensive experiments on benchmarks from different DG tasks demonstrate that LFME is consistently beneficial to the baseline and can achieve comparable performance to existing arts. Code is available at~\url{https://github.com/liangchen527/LFME}.

arxiv情報

著者 Liang Chen,Yong Zhang,Yibing Song,Zhiqiang Shen,Lingqiao Liu
発行日 2024-10-22 13:44:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | LFME: A Simple Framework for Learning from Multiple Experts in Domain Generalization はコメントを受け付けていません

Auxiliary CycleGAN-guidance for Task-Aware Domain Translation from Duplex to Monoplex IHC Images

要約

生成モデルを使用すると、容易にトレーニングされたモデルを利用できるソース画像ドメインから、トレーニング中に目に見えないターゲット ドメインへの変換が可能になります。
サイクル生成敵対的ネットワーク (GAN) は十分に確立されていますが、関連するサイクルの一貫性制約は、2 つのドメイン間に可逆マッピングが存在することに依存しています。
ただし、これは、発色モノプレックスおよびデュプレックス免疫組織化学 (IHC) アッセイで染色された画像間の翻訳には当てはまりません。
後者から前者への変換に焦点を当て、新しいトレーニング デザインの導入を通じて、補助的な不対画像ドメインとして免疫蛍光 (IF) 画像のセットを利用する代替制約を提案します。
下流のセグメンテーションタスクに関する定量的および定性的な結果は、ベースラインアプローチと比較して、提案された方法の利点を示しています。

要約(オリジナル)

Generative models enable the translation from a source image domain where readily trained models are available to a target domain unseen during training. While Cycle Generative Adversarial Networks (GANs) are well established, the associated cycle consistency constrain relies on that an invertible mapping exists between the two domains. This is, however, not the case for the translation between images stained with chromogenic monoplex and duplex immunohistochemistry (IHC) assays. Focusing on the translation from the latter to the first, we propose – through the introduction of a novel training design, an alternative constrain leveraging a set of immunofluorescence (IF) images as an auxiliary unpaired image domain. Quantitative and qualitative results on a downstream segmentation task show the benefit of the proposed method in comparison to baseline approaches.

arxiv情報

著者 Nicolas Brieu,Nicolas Triltsch,Philipp Wortmann,Dominik Winter,Shashank Saran,Marlon Rebelatto,Günter Schmidt
発行日 2024-10-22 14:07:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV, I.2.10, I.4.6, J.3 | Auxiliary CycleGAN-guidance for Task-Aware Domain Translation from Duplex to Monoplex IHC Images はコメントを受け付けていません