SNAP: A Benchmark for Testing the Effects of Capture Conditions on Fundamental Vision Tasks

要約

Deep-Rearningベースの(DL)コンピュータービジョンアルゴリズムのさまざまな画像摂動への一般化は、確立が困難であり、研究の積極的な分野のままです。
過去の分析の大部分は、すでにキャプチャされた画像に焦点を当てていましたが、画像形成パイプラインと環境の効果はあまり研究されていません。
このホワイトペーパーでは、3つのビジョンタスクのDLモデルパフォーマンス(画像分類、オブジェクト検出、視覚的質問(VQA)のDLモデルのパフォーマンスに対するカメラパラメーターや照明などのキャプチャ条件の影響を分析することにより、この問題に対処します。
この目的のために、一般的なビジョンデータセットでのキャプチャバイアスを評価し、新しいベンチマーク、スナップ($ \ textbf {s} $ hutter speed、iso se $ \ textbf {n} $ sitivity、および$ \ textbf {ap} $ erertureの場合)を作成します。
次に、多数のDLビジョンモデルを評価し、選択した各ビジョンタスクに対するキャプチャ条件の影響を示します。
最後に、VQAタスクの人間のベースラインを確立するための実験を実施します。
我々の結果は、コンピュータービジョンデータセットが大幅に偏っており、このデータで訓練されたモデルは、よく露出された画像でも人間の精度に達しておらず、カメラ設定の主要な露出の変化と微小な変動の両方に影響を与えていることを示しています。
コードとデータはhttps://github.com/ykotseruba/snapにあります

要約(オリジナル)

Generalization of deep-learning-based (DL) computer vision algorithms to various image perturbations is hard to establish and remains an active area of research. The majority of past analyses focused on the images already captured, whereas effects of the image formation pipeline and environment are less studied. In this paper, we address this issue by analyzing the impact of capture conditions, such as camera parameters and lighting, on DL model performance on 3 vision tasks — image classification, object detection, and visual question answering (VQA). To this end, we assess capture bias in common vision datasets and create a new benchmark, SNAP (for $\textbf{S}$hutter speed, ISO se$\textbf{N}$sitivity, and $\textbf{AP}$erture), consisting of images of objects taken under controlled lighting conditions and with densely sampled camera settings. We then evaluate a large number of DL vision models and show the effects of capture conditions on each selected vision task. Lastly, we conduct an experiment to establish a human baseline for the VQA task. Our results show that computer vision datasets are significantly biased, the models trained on this data do not reach human accuracy even on the well-exposed images, and are susceptible to both major exposure changes and minute variations of camera settings. Code and data can be found at https://github.com/ykotseruba/SNAP

arxiv情報

著者 Iuliia Kotseruba,John K. Tsotsos
発行日 2025-05-21 15:14:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SNAP: A Benchmark for Testing the Effects of Capture Conditions on Fundamental Vision Tasks はコメントを受け付けていません

Oral Imaging for Malocclusion Issues Assessments: OMNI Dataset, Deep Learning Baselines and Benchmarking

要約

不正咬合は歯科矯正の主要な課題であり、その複雑な症状と多様な臨床症状により、正確な局在と診断が特に重要になります。
現在、歯科画像分析の分野に直面している主要な欠点の1つは、不正咬合問題に特化した大規模で正確にラベル付けされたデータセットの欠如であり、歯科分野での自動化された診断の開発を制限し、臨床診療の診断精度と効率の欠如につながります。
したがって、この研究では、口腔および顎顔面の自然画像(OMNI)データセットを提案します。これは、不正咬合の問題の歯科画像を分析する研究を進めることを目的とした新規で包括的な歯科画像データセットです。
具体的には、データセットには、データ収集に384人の参加者が参加し、プロの歯科医が注釈を付けた4166のマルチビュー画像が含まれています。
さらに、3つのCNNベースの方法、2つの変圧器ベースの方法、1つのGNNベースの方法を含む、作成されたOMNIデータセットの包括的な検証を実行し、不正咬合問題のために自動診断実験を実施しました。
実験結果は、OMNIデータセットが不正咬合問題の自動診断研究を促進し、この分野の研究のための新しいベンチマークを提供できることを示しています。
Omniデータセットとベースラインコードは、https://github.com/roundfacej/omniで公開されています。

要約(オリジナル)

Malocclusion is a major challenge in orthodontics, and its complex presentation and diverse clinical manifestations make accurate localization and diagnosis particularly important. Currently, one of the major shortcomings facing the field of dental image analysis is the lack of large-scale, accurately labeled datasets dedicated to malocclusion issues, which limits the development of automated diagnostics in the field of dentistry and leads to a lack of diagnostic accuracy and efficiency in clinical practice. Therefore, in this study, we propose the Oral and Maxillofacial Natural Images (OMNI) dataset, a novel and comprehensive dental image dataset aimed at advancing the study of analyzing dental images for issues of malocclusion. Specifically, the dataset contains 4166 multi-view images with 384 participants in data collection and annotated by professional dentists. In addition, we performed a comprehensive validation of the created OMNI dataset, including three CNN-based methods, two Transformer-based methods, and one GNN-based method, and conducted automated diagnostic experiments for malocclusion issues. The experimental results show that the OMNI dataset can facilitate the automated diagnosis research of malocclusion issues and provide a new benchmark for the research in this field. Our OMNI dataset and baseline code are publicly available at https://github.com/RoundFaceJ/OMNI.

arxiv情報

著者 Pujun Xue,Junyi Ge,Xiaotong Jiang,Siyang Song,Zijian Wu,Yupeng Huo,Weicheng Xie,Linlin Shen,Xiaoqin Zhou,Xiaofeng Liu,Min Gu
発行日 2025-05-21 15:18:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Oral Imaging for Malocclusion Issues Assessments: OMNI Dataset, Deep Learning Baselines and Benchmarking はコメントを受け付けていません

FragFake: A Dataset for Fine-Grained Detection of Edited Images with Vision Language Models

要約

特に、最新の拡散モデルと画像編集方法が非常に現実的な操作を生成する可能性があることを考えると、コンテンツの信頼性を評価するためには、画像内の局所編集の編集された画像検出が重要です。
ただし、このドメインは3つの課題に直面しています。(1)バイナリ分類器は、ローカリゼーションを提供せずにグローバルな実世界またはフェイクラベルのみを生成します。
(2)従来のコンピュータービジョン方法は、多くの場合、費用のかかるピクセルレベルの注釈に依存しています。
(3)最新の画像編集検出技術には、大規模で高品質のデータセットが存在しません。
これらのギャップに対処するために、自動化されたデータジェネレーションパイプラインを開発して、編集された画像検出用の最初の専用ベンチマークデータセットであるFragfakeを作成します。
Fragfakeに基づいて、編集された画像分類と編集された地域のローカリゼーションのタスクで、Vision言語モデル(VLM)を初めて利用します。
実験結果は、微調整されたVLMがすべてのデータセットでより高い平均オブジェクトの精度を達成し、かなり優れた前のモデルを上回ることを示しています。
さらに、さまざまな構成と編集シナリオの検出器を評価するために、アブレーションと移動性分析を実施します。
私たちの知る限り、この作業は、ビジョン言語理解タスクとしてローカライズされた画像編集の検出を再定式化し、フィールドの新しいパラダイムを確立する最初の作業です。
この作業は、マルチモーダルコンテンツの信頼性の領域でその後の研究の努力を促進し、促進するための強固な基盤を確立すると予想しています。

要約(オリジナル)

Fine-grained edited image detection of localized edits in images is crucial for assessing content authenticity, especially given that modern diffusion models and image editing methods can produce highly realistic manipulations. However, this domain faces three challenges: (1) Binary classifiers yield only a global real-or-fake label without providing localization; (2) Traditional computer vision methods often rely on costly pixel-level annotations; and (3) No large-scale, high-quality dataset exists for modern image-editing detection techniques. To address these gaps, we develop an automated data-generation pipeline to create FragFake, the first dedicated benchmark dataset for edited image detection, which includes high-quality images from diverse editing models and a wide variety of edited objects. Based on FragFake, we utilize Vision Language Models (VLMs) for the first time in the task of edited image classification and edited region localization. Experimental results show that fine-tuned VLMs achieve higher average Object Precision across all datasets, significantly outperforming pretrained models. We further conduct ablation and transferability analyses to evaluate the detectors across various configurations and editing scenarios. To the best of our knowledge, this work is the first to reformulate localized image edit detection as a vision-language understanding task, establishing a new paradigm for the field. We anticipate that this work will establish a solid foundation to facilitate and inspire subsequent research endeavors in the domain of multimodal content authenticity.

arxiv情報

著者 Zhen Sun,Ziyi Zhang,Zeren Luo,Zeyang Sha,Tianshuo Cong,Zheng Li,Shiwen Cui,Weiqiang Wang,Jiaheng Wei,Xinlei He,Qi Li,Qian Wang
発行日 2025-05-21 15:22:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CV | FragFake: A Dataset for Fine-Grained Detection of Edited Images with Vision Language Models はコメントを受け付けていません

How far can we go with ImageNet for Text-to-Image generation?

要約

最近のテキストからイメージの生成モデルは、「より大きなISが優れている」パラダイムに続いて、可用性(クローズド対オープンソースとオープンソース)と再現性(データディケイク対確立されたコレクション)よりも優先されるパラダイムに続いて、10億個のデータセットでトレーニングすることで顕著な結果を達成しました。
よく設計されたテキストと画像の増強で強化されたImagENetのみを使用して、大規模なWebスクレイプコレクションでトレーニングされたモデルと一致またはアウトパフォームすることができることを実証することにより、この確立されたパラダイムに挑戦します。
このはるかにシンプルなセットアップにより、GenevalのSD-XLよりも +1%の総スコア、DPGBenchで +0.5%を達成しながら、パラメーターを1/10、トレーニング画像を1/1000番目に使用します。
Imagenetは広く利用可能なデータセットであり、当社の標準化されたトレーニングセットアップには大規模な計算リソースが必要ないため、これにより再現性のある研究への道が開かれます。

要約(オリジナル)

Recent text-to-image generation models have achieved remarkable results by training on billion-scale datasets, following a `bigger is better’ paradigm that prioritizes data quantity over availability (closed vs open source) and reproducibility (data decay vs established collections). We challenge this established paradigm by demonstrating that one can match or outperform models trained on massive web-scraped collections, using only ImageNet enhanced with well-designed text and image augmentations. With this much simpler setup, we achieve a +1% overall score over SD-XL on GenEval and +0.5% on DPGBench while using just 1/10th the parameters and 1/1000th the training images. This opens the way for more reproducible research as ImageNet is a widely available dataset and our standardized training setup does not require massive compute resources.

arxiv情報

著者 L. Degeorge,A. Ghosh,N. Dufour,D. Picard,V. Kalogeiton
発行日 2025-05-21 15:26:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | How far can we go with ImageNet for Text-to-Image generation? はコメントを受け付けていません

The Devil is in Fine-tuning and Long-tailed Problems:A New Benchmark for Scene Text Detection

要約

シーンのテキスト検出では、アカデミックベンチマークで優れた高性能な方法の出現が見られました。
ただし、これらの検出器は、実際のシナリオでこのような成功を再現できないことがよくあります。
広範な実験を通じてこの矛盾に貢献している2つの重要な要因を明らかにします。
まず、モデルが他のドメインの有効性を低下させた犠牲を払って\ textit {dataset特異的最適化}(dso)パラダイムをレバレッジする\ textit {微調整ギャップ}は、アカデミックベンチマークの膨らんだパフォーマンスにつながります。
第二に、実用的な設定での最適ではないパフォーマンスは、主にテキストの長期尾の分布に起因します。そこでは、検出器が芸術的または重複したテキストとしてのまれで複雑なカテゴリと格闘しています。
DSOパラダイムがモデルの一般化能力を損なう可能性があることを考えると、微調整ギャップを緩和するために\ textit {共同ダタセット学習}(JDL)プロトコルを提唱します。
さらに、エラー分析が行われ、長期尾のあるシーンテキストで3つの主要なカテゴリと13のサブカテゴリの課題を特定し、長期尾のあるベンチマーク(LTB)を提案します。
LTBは、多様な範囲の長期継続的な課題を処理する能力の包括的な評価を促進します。
さらに、LTBの強力なベースラインとして、自己科学の学習ベースの方法であるMaedetを紹介します。
このコードはhttps://github.com/pd162/ltbで入手できます。

要約(オリジナル)

Scene text detection has seen the emergence of high-performing methods that excel on academic benchmarks. However, these detectors often fail to replicate such success in real-world scenarios. We uncover two key factors contributing to this discrepancy through extensive experiments. First, a \textit{Fine-tuning Gap}, where models leverage \textit{Dataset-Specific Optimization} (DSO) paradigm for one domain at the cost of reduced effectiveness in others, leads to inflated performances on academic benchmarks. Second, the suboptimal performance in practical settings is primarily attributed to the long-tailed distribution of texts, where detectors struggle with rare and complex categories as artistic or overlapped text. Given that the DSO paradigm might undermine the generalization ability of models, we advocate for a \textit{Joint-Dataset Learning} (JDL) protocol to alleviate the Fine-tuning Gap. Additionally, an error analysis is conducted to identify three major categories and 13 subcategories of challenges in long-tailed scene text, upon which we propose a Long-Tailed Benchmark (LTB). LTB facilitates a comprehensive evaluation of ability to handle a diverse range of long-tailed challenges. We further introduce MAEDet, a self-supervised learning-based method, as a strong baseline for LTB. The code is available at https://github.com/pd162/LTB.

arxiv情報

著者 Tianjiao Cao,Jiahao Lyu,Weichao Zeng,Weimin Mu,Yu Zhou
発行日 2025-05-21 15:26:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | The Devil is in Fine-tuning and Long-tailed Problems:A New Benchmark for Scene Text Detection はコメントを受け付けていません

Exploring the Limits of Vision-Language-Action Manipulations in Cross-task Generalization

要約

目に見えないタスクに対するビジョン言語アクション(VLA)モデルの一般化能力は、オープンワールド設定での汎用ロボット操作を達成するために重要です。
ただし、既存のVLAモデルのクロスタスク一般化機能は、既存の依存症状のままです。
このギャップに対処するために、操作におけるクロスタスクゼロショットの一般化を厳密に評価するように設計された新しいシミュレーションベンチマークであるAgnostosを紹介します。
Agnostosは、一般的なトレーニングタスク分布とは異なる23の目に見えない操作タスクで構成され、2つのレベルの一般化難易度を組み込んで堅牢性を評価します。
私たちの体系的な評価は、現在のVLAモデルは、多様なデータセットで訓練されているにもかかわらず、これらの目に見えないタスクに効果的に一般化するのに苦労していることを明らかにしています。
この制限を克服するために、クロスタスク内操作(X-ICM)を提案します。これは、見られたタスクからのコンテキスト内デモンストレーションに大きな言語モデル(LLM)を条件付けて、目に見えないタスクのアクションシーケンスを予測することを提案します。
さらに、クロスタスクダイナミクスをキャプチャすることにより、関連するデモンストレーションを識別するダイナミクスガイドのサンプル選択戦略を導入します。
Agnostosでは、X-ICMは、主要なVLAよりもクロスタスクゼロショット一般化パフォーマンスを大幅に改善します。
AgnostosとX-ICMは、汎用ロボット操作を進めるための貴重なツールとして役立つと考えています。

要約(オリジナル)

The generalization capabilities of vision-language-action (VLA) models to unseen tasks are crucial to achieving general-purpose robotic manipulation in open-world settings. However, the cross-task generalization capabilities of existing VLA models remain significantly underexplored. To address this gap, we introduce AGNOSTOS, a novel simulation benchmark designed to rigorously evaluate cross-task zero-shot generalization in manipulation. AGNOSTOS comprises 23 unseen manipulation tasks for testing, distinct from common training task distributions, and incorporates two levels of generalization difficulty to assess robustness. Our systematic evaluation reveals that current VLA models, despite being trained on diverse datasets, struggle to generalize effectively to these unseen tasks. To overcome this limitation, we propose Cross-Task In-Context Manipulation (X-ICM), a method that conditions large language models (LLMs) on in-context demonstrations from seen tasks to predict action sequences for unseen tasks. Additionally, we introduce a dynamics-guided sample selection strategy that identifies relevant demonstrations by capturing cross-task dynamics. On AGNOSTOS, X-ICM significantly improves cross-task zero-shot generalization performance over leading VLAs. We believe AGNOSTOS and X-ICM will serve as valuable tools for advancing general-purpose robotic manipulation.

arxiv情報

著者 Jiaming Zhou,Ke Ye,Jiayi Liu,Teli Ma,Zifang Wang,Ronghe Qiu,Kun-Yu Lin,Zhilin Zhao,Junwei Liang
発行日 2025-05-21 15:35:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Exploring the Limits of Vision-Language-Action Manipulations in Cross-task Generalization はコメントを受け付けていません

Gompertz Linear Units: Leveraging Asymmetry for Enhanced Learning Dynamics

要約

活性化関数は、トレーニングのダイナミクスに大きな影響を与えるため、深い学習アーキテクチャの基本的な要素です。
Reluは広く使用されていますが、負のニューロンの問題を緩和する傾向があります。これは、負のニューロン出力をよりよく処理するLeakyrelu、Prelu、Eluなどのバリアントによって緩和されています。
最近、GeluやSwishなどの自己緩和された活性化が最先端の代替品として浮上し、滑らかさを活用して安定した勾配の流れを確保し、ニューロンの不活性を防ぎます。
この作業では、$ \ mathrm {golu}(x)= x \、\ mathrm {gompertz}(x)$、$ \ mathrm {gompertz}(x)= x \ mathrm {gompertz}(x)= e^{ – e^{ – e^{-e^{-e^{x^{-e^{-e^{x^{-e^{x $}として定義された新しい自己緩和された活性化関数であるGompertz線形ユニット(Golu)を導入します。
Goluの活性化は、Gompertz関数の右剥離された非対称性を活用して、GeluやSwishと比較して潜在空間の分散をより効果的に減らし、堅牢な勾配の流れを維持します。
画像分類、言語モデリング、セマンティックセグメンテーション、オブジェクトの検出、インスタンスセグメンテーション、拡散など、多様なタスク全体の広範な実験は、最先端の活性化関数と比較してGoluの優れた性能を強調し、Goluを既存の活性化関数に代わる堅牢な代替として確立します。

要約(オリジナル)

Activation functions are fundamental elements of deep learning architectures as they significantly influence training dynamics. ReLU, while widely used, is prone to the dying neuron problem, which has been mitigated by variants such as LeakyReLU, PReLU, and ELU that better handle negative neuron outputs. Recently, self-gated activations like GELU and Swish have emerged as state-of-the-art alternatives, leveraging their smoothness to ensure stable gradient flow and prevent neuron inactivity. In this work, we introduce the Gompertz Linear Unit (GoLU), a novel self-gated activation function defined as $\mathrm{GoLU}(x) = x \, \mathrm{Gompertz}(x)$, where $\mathrm{Gompertz}(x) = e^{-e^{-x}}$. The GoLU activation leverages the right-skewed asymmetry in the Gompertz function to reduce variance in the latent space more effectively compared to GELU and Swish, while preserving robust gradient flow. Extensive experiments across diverse tasks, including Image Classification, Language Modeling, Semantic Segmentation, Object Detection, Instance Segmentation, and Diffusion, highlight GoLU’s superior performance relative to state-of-the-art activation functions, establishing GoLU as a robust alternative to existing activation functions.

arxiv情報

著者 Indrashis Das,Mahmoud Safari,Steven Adriaensen,Frank Hutter
発行日 2025-05-21 15:36:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Gompertz Linear Units: Leveraging Asymmetry for Enhanced Learning Dynamics はコメントを受け付けていません

Faster Video Diffusion with Trainable Sparse Attention

要約

スケーリングビデオ拡散変圧器(DITS)は、ほとんどの注意質量が位置の小さなサブセットに集中しているにもかかわらず、2次3Dの注意によって制限されます。
この観察結果をVSAに変えます。VSAは、\ emphare {両方の}トレーニングと推論で完全な注意を置き換えるトレーニング可能でハードウェア効率の高いまばらな注意です。
VSAでは、軽量の粗いステージがトークンをタイルにプールし、高重量\ emph {クリティカルトークン}を識別します。
細かいステージは、トークンレベルの注意を計算します。これらのタイルは、コンピューティングレイアウトをブロックするためにブロックするタイルの内側のみを計算し、効率が硬くなります。
これにより、エンドツーエンドをトレーニングし、事後プロファイリングを必要とせず、Flashattention3 MFUの85%を維持する単一の微分可能なカーネルにつながります。
60mから1.4bのパラメーターまでのDITを前処理することにより、アブレーション研究とスケーリング法の実験の大規模なスイープを実行します。
VSAは、拡散損失の減少なしにトレーニングフロップを2.53 $ \ Times $削減するパレートポイントに到達します。
オープンソースWAN-2.1モデルを改造すると、注意時間が6ドル\ Times $を速め、31秒から18秒までエンドツーエンドの生成時間を低下させます。
これらの結果は、完全な注意の実用的な代替手段として、ビデオ拡散モデルのさらなるスケーリングのための重要なイネーブラーとして、訓練可能なまばらな注意を確立します。

要約(オリジナル)

Scaling video diffusion transformers (DiTs) is limited by their quadratic 3D attention, even though most of the attention mass concentrates on a small subset of positions. We turn this observation into VSA, a trainable, hardware-efficient sparse attention that replaces full attention at \emph{both} training and inference. In VSA, a lightweight coarse stage pools tokens into tiles and identifies high-weight \emph{critical tokens}; a fine stage computes token-level attention only inside those tiles subjecting to block computing layout to ensure hard efficiency. This leads to a single differentiable kernel that trains end-to-end, requires no post-hoc profiling, and sustains 85\% of FlashAttention3 MFU. We perform a large sweep of ablation studies and scaling-law experiments by pretraining DiTs from 60M to 1.4B parameters. VSA reaches a Pareto point that cuts training FLOPS by 2.53$\times$ with no drop in diffusion loss. Retrofitting the open-source Wan-2.1 model speeds up attention time by 6$\times$ and lowers end-to-end generation time from 31s to 18s with comparable quality. These results establish trainable sparse attention as a practical alternative to full attention and a key enabler for further scaling of video diffusion models.

arxiv情報

著者 Peiyuan Zhang,Haofeng Huang,Yongqi Chen,Will Lin,Zhengzhong Liu,Ion Stoica,Eric Xing,Hao Zhang
発行日 2025-05-21 15:36:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Faster Video Diffusion with Trainable Sparse Attention はコメントを受け付けていません

Enhancing Monte Carlo Dropout Performance for Uncertainty Quantification

要約

深いニューラルネットワークの出力に関連する不確実性を知ることは、特に医療診断や自律システムなどの高品質の分野で、信頼できる決定を下す上で最も重要です。
モンテカルロドロップアウト(MCD)は、さまざまな深いアーキテクチャに簡単に統合できるため、不確実性の定量化のために広く使用されている方法です。
ただし、従来のMCDはしばしば、十分に調整された不確実性の推定値を提供することに苦労しています。
これに対処するために、さまざまな検索ソリューション、すなわちグレーウルフオプティマイザー(GWO)、ベイジアン最適化(BO)、および粒子群群最適化(PSO)を統合することにより、MCDを強化する革新的なフレームワークを導入し、不確実性に対応する損失機能を導入し、不確実性の定量化の信頼性を改善します。
猫対犬、犬、心筋炎、ウィスコンシン、および合成データセット(サークル)など、さまざまなデータセットで、さまざまなバックボーン、すなわちデンセネット121、ResNet50、およびVGG16を使用して包括的な実験を実施します。
提案されたアルゴリズムは、従来の精度と不確実性の精度の両方の点で、平均してMCDベースラインを平均2〜3%上回り、大幅に優れたキャリブレーションを達成します。
これらの結果は、安全性の高いアプリケーションにおける深い学習モデルの信頼性を高めるためのアプローチの可能性を強調しています。

要約(オリジナル)

Knowing the uncertainty associated with the output of a deep neural network is of paramount importance in making trustworthy decisions, particularly in high-stakes fields like medical diagnosis and autonomous systems. Monte Carlo Dropout (MCD) is a widely used method for uncertainty quantification, as it can be easily integrated into various deep architectures. However, conventional MCD often struggles with providing well-calibrated uncertainty estimates. To address this, we introduce innovative frameworks that enhances MCD by integrating different search solutions namely Grey Wolf Optimizer (GWO), Bayesian Optimization (BO), and Particle Swarm Optimization (PSO) as well as an uncertainty-aware loss function, thereby improving the reliability of uncertainty quantification. We conduct comprehensive experiments using different backbones, namely DenseNet121, ResNet50, and VGG16, on various datasets, including Cats vs. Dogs, Myocarditis, Wisconsin, and a synthetic dataset (Circles). Our proposed algorithm outperforms the MCD baseline by 2-3% on average in terms of both conventional accuracy and uncertainty accuracy while achieving significantly better calibration. These results highlight the potential of our approach to enhance the trustworthiness of deep learning models in safety-critical applications.

arxiv情報

著者 Hamzeh Asgharnezhad,Afshar Shamsi,Roohallah Alizadehsani,Arash Mohammadi,Hamid Alinejad-Rokny
発行日 2025-05-21 15:50:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Enhancing Monte Carlo Dropout Performance for Uncertainty Quantification はコメントを受け付けていません

Learning Task-preferred Inference Routes for Gradient De-conflict in Multi-output DNNs

要約

マルチアウトプットディープニューラルネットワーク(MON)には複数のタスクブランチが含まれており、これらのタスクは通常、異なるタスク推論ルートの絡み合いにつながる部分的なネットワークフィルターを共有します。
一貫性のない最適化の目的により、モンのトレーニングに使用されるタスク勾配は、共有ルートで互いに干渉し、モデル全体のパフォーマンスが低下します。
この問題に対処するために、この作業では、DR-MGF(動的ルートとメタ加重勾配融合)という名前の新しい勾配de-flictアルゴリズムを提案します。
既存の紛争法とは異なり、DR-MGFは、タスク優先推論ルートを学習することにより、モンで勾配排出紛争を実現します。
提案された方法は、実験結果によって動機付けられています。共有フィルターは、異なるタスクにとって等しく重要ではありません。
学習可能なタスク固有の重要性変数を設計することにより、DR-MGFはさまざまなタスクのフィルターの重要性を評価します。
フィルター上のタスクの支配を、フィルターのタスク固有の重要性に比例させることにより、DR-MGFはタスク間干渉を効果的に減らすことができます。
タスク固有の重要性変数は、最終的にトレーニングの反復の終了時にタスク優先推論ルートを決定します。
CIFAR、Imagenet、およびNyuv2に関する広範な実験結果は、DR-MGFがモンの予測精度と収束速度の両方で既存のde紛争方法を上回ることを示しています。
さらに、DR-MGFは、ネットワーク構造全体を変更せずに一般的なモンに拡張できます。

要約(オリジナル)

Multi-output deep neural networks(MONs) contain multiple task branches, and these tasks usually share partial network filters that lead to the entanglement of different task inference routes. Due to the inconsistent optimization objectives, the task gradients used for training MONs will interfere with each other on the shared routes, which will decrease the overall model performance. To address this issue, we propose a novel gradient de-conflict algorithm named DR-MGF(Dynamic Routes and Meta-weighted Gradient Fusion) in this work. Different from existing de-conflict methods, DR-MGF achieves gradient de-conflict in MONs by learning task-preferred inference routes. The proposed method is motivated by our experimental findings: the shared filters are not equally important to different tasks. By designing the learnable task-specific importance variables, DR-MGF evaluates the importance of filters for different tasks. Through making the dominances of tasks over filters be proportional to the task-specific importance of filters, DR-MGF can effectively reduce the inter-task interference. The task-specific importance variables ultimately determine task-preferred inference routes at the end of training iterations. Extensive experimental results on CIFAR, ImageNet, and NYUv2 illustrate that DR-MGF outperforms the existing de-conflict methods both in prediction accuracy and convergence speed of MONs. Furthermore, DR-MGF can be extended to general MONs without modifying the overall network structures.

arxiv情報

著者 Yi Sun,Xin Xu,Jian Li,Xiaochang Hu,Yifei Shi,Ling-Li Zeng
発行日 2025-05-21 15:54:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Learning Task-preferred Inference Routes for Gradient De-conflict in Multi-output DNNs はコメントを受け付けていません