Navi-plus: Managing Ambiguous GUI Navigation Tasks with Follow-up

要約

グラフィカルユーザーインターフェイス(GUI)自動化エージェントは、強力なツールとして浮上しており、人間がスマートデバイスでますます複雑なタスクを達成できるようにしています。
ただし、ユーザーは、タスクを伝えるときに重要な情報を不注意に省略することがよくあります。これにより、ユーザーの介入をサポートしない現在のエージェントパラダイムのエージェントパフォーマンスが妨げられます。
この問題に対処するために、GUIエージェント内にインタラクティブな情報完了機能を組み込んだ$ \ textBf {自己修正GUIナビゲーション} $タスクを紹介します。
この新しい機能をベンチマークするために、$ \ textbf {navi-plus} $ datasetを$ \ textbf {dual-stream tramectory evaluation} $メソッドとともに、$ \ textbf {navi-plus} $ datasetを開発しました。
私たちの結果は、GUIのフォローアップの質問をする能力を備えたエージェントが、曖昧なユーザータスクに直面したときにパフォーマンスを完全に回復できることを示しています。

要約(オリジナル)

Graphical user interfaces (GUI) automation agents are emerging as powerful tools, enabling humans to accomplish increasingly complex tasks on smart devices. However, users often inadvertently omit key information when conveying tasks, which hinders agent performance in the current agent paradigm that does not support immediate user intervention. To address this issue, we introduce a $\textbf{Self-Correction GUI Navigation}$ task that incorporates interactive information completion capabilities within GUI agents. We developed the $\textbf{Navi-plus}$ dataset with GUI follow-up question-answer pairs, alongside a $\textbf{Dual-Stream Trajectory Evaluation}$ method to benchmark this new capability. Our results show that agents equipped with the ability to ask GUI follow-up questions can fully recover their performance when faced with ambiguous user tasks.

arxiv情報

著者 Ziming Cheng,Zhiyuan Huang,Junting Pan,Zhaohui Hou,Mingjie Zhan
発行日 2025-03-31 14:56:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC | Navi-plus: Managing Ambiguous GUI Navigation Tasks with Follow-up はコメントを受け付けていません

CIBR: Cross-modal Information Bottleneck Regularization for Robust CLIP Generalization

要約

対照的な言語イメージの事前削除(CLIP)は、視覚的表現とテキスト表現を効果的に整列させることにより、ゼロショット画像分類やテキストイメージの検索などのクロスモーダルタスクで顕著な成功を収めました。
ただし、クリップの強力な一般化の根底にある理論的基礎は不明のままです。
この作業では、クロスモーダル情報ボトルネック(CIB)フレームワークを提案することにより、このギャップに対処します。
CIBは、暗黙の情報ボトルネックの最適化として、Clipの対照的な学習目標の原則的な解釈を提供します。
この見解では、モデルは共有されたクロスモーダル情報を最大化し、モダリティ固有の冗長性を破棄し、モダリティ全体で重要なセマンティックアライメントを維持します。
この洞察に基づいて、トレーニング中にこれらのIBの原則を明示的に実施するクロスモーダル情報ボトルネック正規化(CIBR)方法を紹介します。
CIBRは、モダリティ固有の冗長性を思いとどまらせるためのペナルティ用語を導入し、それにより画像とテキスト機能の間のセマンティックアラインメントを強化します。
7つの多様な画像データセットにわたるゼロショット分類や、MSCOCOおよびFlickR30Kのテキストイメージ検索など、CIBRを大規模なビジョン言語ベンチマークで検証します。
結果は、標準クリップよりも一貫したパフォーマンスの向上を示しています。
これらの調査結果は、IBレンズを介したクリップの一般化の最初の理論的理解を提供します。
また、実用的な改善を実証し、将来のクロスモーダル表現学習のためのガイダンスを提供します。

要約(オリジナル)

Contrastive Language-Image Pretraining (CLIP) has achieved remarkable success in cross-modal tasks such as zero-shot image classification and text-image retrieval by effectively aligning visual and textual representations. However, the theoretical foundations underlying CLIP’s strong generalization remain unclear. In this work, we address this gap by proposing the Cross-modal Information Bottleneck (CIB) framework. CIB offers a principled interpretation of CLIP’s contrastive learning objective as an implicit Information Bottleneck optimization. Under this view, the model maximizes shared cross-modal information while discarding modality-specific redundancies, thereby preserving essential semantic alignment across modalities. Building on this insight, we introduce a Cross-modal Information Bottleneck Regularization (CIBR) method that explicitly enforces these IB principles during training. CIBR introduces a penalty term to discourage modality-specific redundancy, thereby enhancing semantic alignment between image and text features. We validate CIBR on extensive vision-language benchmarks, including zero-shot classification across seven diverse image datasets and text-image retrieval on MSCOCO and Flickr30K. The results show consistent performance gains over standard CLIP. These findings provide the first theoretical understanding of CLIP’s generalization through the IB lens. They also demonstrate practical improvements, offering guidance for future cross-modal representation learning.

arxiv情報

著者 Yingrui Ji,Xi Xiao,Gaofei Chen,Hao Xu,Chenrui Ma,Lijing Zhu,Aokun Liang,Jiansheng Chen
発行日 2025-03-31 15:00:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CIBR: Cross-modal Information Bottleneck Regularization for Robust CLIP Generalization はコメントを受け付けていません

DICE: Discrete Inversion Enabling Controllable Editing for Multinomial Diffusion and Masked Generative Models

要約

離散拡散モデルは、画像生成やマスクされた言語モデリングなどのタスクで成功を収めていますが、制御されたコンテンツ編集では直面しています。
マルチノーム拡散やマスク生成モデルを含む離散拡散モデルの正確な反転を可能にする最初のアプローチであるダイス(制御可能な編集のための離散反転)を紹介します。
逆拡散プロセス中にノイズシーケンスとマスキングパターンを記録することにより、DICEは、事前定義されたマスクや注意操作を必要とせずに、離散データの正確な再構築と柔軟な編集を可能にします。
画像ドメインとテキストドメインの両方でサイコロの有効性を実証し、VQ-Diffusion、Paella、Robertaなどのモデルで評価します。
私たちの結果は、サイコロが編集機能を強化しながら高いデータの忠実度を維持し、離散空間でのきめの細かいコンテンツ操作の新しい機会を提供することを示しています。

要約(オリジナル)

Discrete diffusion models have achieved success in tasks like image generation and masked language modeling but face limitations in controlled content editing. We introduce DICE (Discrete Inversion for Controllable Editing), the first approach to enable precise inversion for discrete diffusion models, including multinomial diffusion and masked generative models. By recording noise sequences and masking patterns during the reverse diffusion process, DICE enables accurate reconstruction and flexible editing of discrete data without the need for predefined masks or attention manipulation. We demonstrate the effectiveness of DICE across both image and text domains, evaluating it on models such as VQ-Diffusion, Paella, and RoBERTa. Our results show that DICE preserves high data fidelity while enhancing editing capabilities, offering new opportunities for fine-grained content manipulation in discrete spaces.

arxiv情報

著者 Xiaoxiao He,Ligong Han,Quan Dao,Song Wen,Minhao Bai,Di Liu,Han Zhang,Martin Renqiang Min,Felix Juefei-Xu,Chaowei Tan,Bo Liu,Kang Li,Hongdong Li,Junzhou Huang,Faez Ahmed,Akash Srivastava,Dimitris Metaxas
発行日 2025-03-31 15:17:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | DICE: Discrete Inversion Enabling Controllable Editing for Multinomial Diffusion and Masked Generative Models はコメントを受け付けていません

DiET-GS: Diffusion Prior and Event Stream-Assisted Motion Deblurring 3D Gaussian Splatting

要約

ぼやけたマルチビュー画像からのシャープな3D表現の再構築は、コンピュータービジョンにおける長年の問題です。
最近の作品は、イベントベースのカメラを活用して、高ダイナミックレンジとマイクロ秒の時間分解能の恩恵を受けることにより、モーションブラーからの高品質の新規ビューの合成を強化しようとしています。
しかし、彼らはしばしば、不正確な色を回復するか、細かい詳細を失うことにおいて、最適下の視覚品質に達します。
このホワイトペーパーでは、3DGを脱脂する事前およびイベントのストリーム支援モーションであるDiet-GSを紹介します。
私たちのフレームワークは、2段階のトレーニング戦略において、ぼやけのないイベントストリームと拡散の両方を効果的に活用しています。
具体的には、イベントのダブル積分を備えた3DGSを制約するための新しいフレームワークを紹介し、正確な色と明確に定義された詳細の両方を実現します。
さらに、エッジの詳細をさらに強化する前に、拡散を活用する簡単な手法を提案します。
合成および実世界の両方のデータの定性的および定量的結果は、私たちの食事g-gsが既存のベースラインと比較して、非常に優れた品質の新しい見解を生み出すことができることを示しています。
プロジェクトページはhttps://diet-gs.github.ioです

要約(オリジナル)

Reconstructing sharp 3D representations from blurry multi-view images are long-standing problem in computer vision. Recent works attempt to enhance high-quality novel view synthesis from the motion blur by leveraging event-based cameras, benefiting from high dynamic range and microsecond temporal resolution. However, they often reach sub-optimal visual quality in either restoring inaccurate color or losing fine-grained details. In this paper, we present DiET-GS, a diffusion prior and event stream-assisted motion deblurring 3DGS. Our framework effectively leverages both blur-free event streams and diffusion prior in a two-stage training strategy. Specifically, we introduce the novel framework to constraint 3DGS with event double integral, achieving both accurate color and well-defined details. Additionally, we propose a simple technique to leverage diffusion prior to further enhance the edge details. Qualitative and quantitative results on both synthetic and real-world data demonstrate that our DiET-GS is capable of producing significantly better quality of novel views compared to the existing baselines. Our project page is https://diet-gs.github.io

arxiv情報

著者 Seungjun Lee,Gim Hee Lee
発行日 2025-03-31 15:27:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM | DiET-GS: Diffusion Prior and Event Stream-Assisted Motion Deblurring 3D Gaussian Splatting はコメントを受け付けていません

Finer-CAM: Spotting the Difference Reveals Finer Details for Visual Explanation

要約

クラスのアクティベーションマップ(CAM)は、クラスの予測に寄与する画像領域を強調するために広く使用されています。
そのシンプルさと計算効率にもかかわらず、CAMはしばしば、視覚的に類似した細かいクラスを区別する識別地域を特定するのに苦労しています。
以前の努力は、より洗練された説明プロセスを導入することにより、この制限に対処しますが、さらに複雑な犠牲を払っています。
この論文では、識別地域の正確なローカリゼーションを達成しながらCAMの効率を保持する方法であるFiner-Camを提案します。
私たちの重要な洞察は、カムの不足は「どのように」説明するのではなく、「何」と説明するかにあるということです。
具体的には、以前の方法では、ターゲットクラスのロジット値に寄与するすべてのキューを特定しようとします。これは、視覚的に類似したクラスを予測する領域を誤ってアクティブにします。
ターゲットクラスを同様のクラスと明示的に比較し、違いを発見することにより、Finer-Camは他のクラスと共有された機能を抑制し、ターゲットクラスのユニークで差別的な詳細を強調します。
Finer-Camは実装が簡単で、さまざまなCAMメソッドと互換性があり、特定の概念を正確にローカライズするためにマルチモーダルモデルに拡張できます。
さらに、Finer-Camを使用すると、調整可能な比較強度が可能になり、ユーザーが粗いオブジェクトの輪郭や微細な識別の詳細を選択的に強調することができます。
定量的には、より細かいカムで活性化されたピクセルの上位5%をマスクすると、ベースラインと比較して相対的な信頼性が大きくなることが示されています。
ソースコードとデモは、https://github.com/imageomics/finer-camで入手できます。

要約(オリジナル)

Class activation map (CAM) has been widely used to highlight image regions that contribute to class predictions. Despite its simplicity and computational efficiency, CAM often struggles to identify discriminative regions that distinguish visually similar fine-grained classes. Prior efforts address this limitation by introducing more sophisticated explanation processes, but at the cost of extra complexity. In this paper, we propose Finer-CAM, a method that retains CAM’s efficiency while achieving precise localization of discriminative regions. Our key insight is that the deficiency of CAM lies not in ‘how’ it explains, but in ‘what’ it explains. Specifically, previous methods attempt to identify all cues contributing to the target class’s logit value, which inadvertently also activates regions predictive of visually similar classes. By explicitly comparing the target class with similar classes and spotting their differences, Finer-CAM suppresses features shared with other classes and emphasizes the unique, discriminative details of the target class. Finer-CAM is easy to implement, compatible with various CAM methods, and can be extended to multi-modal models for accurate localization of specific concepts. Additionally, Finer-CAM allows adjustable comparison strength, enabling users to selectively highlight coarse object contours or fine discriminative details. Quantitatively, we show that masking out the top 5% of activated pixels by Finer-CAM results in a larger relative confidence drop compared to baselines. The source code and demo are available at https://github.com/Imageomics/Finer-CAM.

arxiv情報

著者 Ziheng Zhang,Jianyang Gu,Arpita Chowdhury,Zheda Mai,David Carlyn,Tanya Berger-Wolf,Yu Su,Wei-Lun Chao
発行日 2025-03-31 15:30:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Finer-CAM: Spotting the Difference Reveals Finer Details for Visual Explanation はコメントを受け付けていません

CASA: Class-Agnostic Shared Attributes in Vision-Language Models for Efficient Incremental Object Detection

要約

インクリメンタルオブジェクトの検出は、壊滅的な忘却によって根本的に挑戦されます。
この問題に貢献する主な要因は、バックグラウンドシフトです。ここでは、シーケンシャルタスクの背景カテゴリが以前に学習または将来の目に見えないクラスのいずれかと重複する可能性があります。
これに対処するために、モデルがインクリメンタルクラスで共有されたカテゴリに依存しない属性を学習することを奨励するクラスに依存しない共有属性ベース(CASA)と呼ばれる新しい方法を提案します。
当社のアプローチは、LLMを活用して候補のテキスト属性を生成し、現在のトレーニングデータに基づいて最も関連性の高いものを選択し、割り当てマトリックスでそれらの重要性を記録します。
その後のタスクでは、保持された属性が凍結され、残りの候補者から新しい属性が選択され、知識の保持と適応性の両方が確保されます。
COCOデータセットでの広範な実験は、私たちの方法の最先端のパフォーマンスを示しています。

要約(オリジナル)

Incremental object detection is fundamentally challenged by catastrophic forgetting. A major factor contributing to this issue is background shift, where background categories in sequential tasks may overlap with either previously learned or future unseen classes. To address this, we propose a novel method called Class-Agnostic Shared Attribute Base (CASA) that encourages the model to learn category-agnostic attributes shared across incremental classes. Our approach leverages an LLM to generate candidate textual attributes, selects the most relevant ones based on the current training data, and records their importance in an assignment matrix. For subsequent tasks, the retained attributes are frozen, and new attributes are selected from the remaining candidates, ensuring both knowledge retention and adaptability. Extensive experiments on the COCO dataset demonstrate the state-of-the-art performance of our method.

arxiv情報

著者 Mingyi Guo,Yuyang Liu,Zhiyuan Yan,Zongying Lin,Peixi Peng,Yonghong Tian
発行日 2025-03-31 15:30:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CASA: Class-Agnostic Shared Attributes in Vision-Language Models for Efficient Incremental Object Detection はコメントを受け付けていません

MB-ORES: A Multi-Branch Object Reasoner for Visual Grounding in Remote Sensing

要約

リモートセンシング(RS)画像のオブジェクト検出(OD)と視覚的接地(VG)を統合する統合フレームワークを提案します。
従来のODをサポートし、VGタスクの直感的な事前の事前を確立するために、参照式データを使用してオープンセットオブジェクト検出器を微調整し、部分的に監視されたODタスクとしてフレーミングします。
最初の段階では、オブジェクトクエリ、クラスの埋め込み、および提案の場所を含む各画像のグラフ表現を作成します。
次に、タスク認識アーキテクチャを処理してVGタスクを実行します。
モデルは、次のもので構成されています。(i)空間、視覚、およびカテゴリの機能を統合してタスク認識提案を生成するマルチブランチネットワーク、および(ii)提案全体で確率を割り当てるオブジェクトの推論ネットワークで、その後に最終的な紹介オブジェクトのローカリゼーションのソフト選択メカニズムが続きます。
私たちのモデルは、Opt-RSVGおよびDior-RSVGデータセットで優れたパフォーマンスを示し、古典的なOD機能を保持しながら、最先端の方法よりも大幅な改善を達成しています。
このコードは、リポジトリで利用できます:\ url {https://github.com/rd20karim/mb-ores}。

要約(オリジナル)

We propose a unified framework that integrates object detection (OD) and visual grounding (VG) for remote sensing (RS) imagery. To support conventional OD and establish an intuitive prior for VG task, we fine-tune an open-set object detector using referring expression data, framing it as a partially supervised OD task. In the first stage, we construct a graph representation of each image, comprising object queries, class embeddings, and proposal locations. Then, our task-aware architecture processes this graph to perform the VG task. The model consists of: (i) a multi-branch network that integrates spatial, visual, and categorical features to generate task-aware proposals, and (ii) an object reasoning network that assigns probabilities across proposals, followed by a soft selection mechanism for final referring object localization. Our model demonstrates superior performance on the OPT-RSVG and DIOR-RSVG datasets, achieving significant improvements over state-of-the-art methods while retaining classical OD capabilities. The code will be available in our repository: \url{https://github.com/rd20karim/MB-ORES}.

arxiv情報

著者 Karim Radouane,Hanane Azzag,Mustapha lebbah
発行日 2025-03-31 15:36:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | MB-ORES: A Multi-Branch Object Reasoner for Visual Grounding in Remote Sensing はコメントを受け付けていません

Pre-training with 3D Synthetic Data: Learning 3D Point Cloud Instance Segmentation from 3D Synthetic Scenes

要約

近年、研究コミュニティは、さまざまな現実世界のアプリケーションで高い適用性のために3Dポイントクラウドデータの使用の増加を目撃しています。
3Dポイントクラウドにより、このモダリティにより、実際のサイズと空間的理解を考慮することができます。
適用されたフィールドには、ロボット、車両、またはその他の現実世界のシステムの機械的制御が含まれます。
このラインに沿って、これらのアプリケーションにとって特に有望なアプローチとして浮上した3Dポイントクラウドインスタンスセグメンテーションを改善したいと考えています。
ただし、3Dポイントクラウドデータセットの作成には、2D画像データセットと比較して膨大なコストが必要です。
3Dポイントクラウドインスタンスセグメンテーションのモデルをトレーニングするには、カテゴリを割り当てるだけでなく、大規模な3Dスペースの各ポイントに詳細な注釈を提供する必要があります。
一方、3Dドメインでの生成モデルの最近の提案の増加により、生成モデルを使用して3Dポイントクラウドデータを作成する提案が促進されました。
この作業では、3Dポイントクラウドインスタンスセグメンテーションモデルをトレーニングする3D合成データを使用した事前トレーニングを提案します。ポイントクラウドデータで表される3Dシーンの生成モデルに基づいてトレーニングします。
生成されたデータを3Dシーンに挿入するために、Point-Eを使用して3Dポイントクラウドデータを直接生成します。
最近では2025年には、他の正確な3D生成モデルがありますが、Point-Eを初期の3D生成モデルとして使用しても、3D合成データでトレーニング前を効果的にサポートできます。
実験セクションでは、トレーニング前の方法を、3Dポイントクラウドインスタンスセグメンテーションの3D生成モデルの有効性を示していることを示すベースライン方法と比較します。

要約(オリジナル)

In the recent years, the research community has witnessed growing use of 3D point cloud data for the high applicability in various real-world applications. By means of 3D point cloud, this modality enables to consider the actual size and spatial understanding. The applied fields include mechanical control of robots, vehicles, or other real-world systems. Along this line, we would like to improve 3D point cloud instance segmentation which has emerged as a particularly promising approach for these applications. However, the creation of 3D point cloud datasets entails enormous costs compared to 2D image datasets. To train a model of 3D point cloud instance segmentation, it is necessary not only to assign categories but also to provide detailed annotations for each point in the large-scale 3D space. Meanwhile, the increase of recent proposals for generative models in 3D domain has spurred proposals for using a generative model to create 3D point cloud data. In this work, we propose a pre-training with 3D synthetic data to train a 3D point cloud instance segmentation model based on generative model for 3D scenes represented by point cloud data. We directly generate 3D point cloud data with Point-E for inserting a generated data into a 3D scene. More recently in 2025, although there are other accurate 3D generation models, even using the Point-E as an early 3D generative model can effectively support the pre-training with 3D synthetic data. In the experimental section, we compare our pre-training method with baseline methods indicated improved performance, demonstrating the efficacy of 3D generative models for 3D point cloud instance segmentation.

arxiv情報

著者 Daichi Otsuka,Shinichi Mae,Ryosuke Yamada,Hirokatsu Kataoka
発行日 2025-03-31 15:42:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Pre-training with 3D Synthetic Data: Learning 3D Point Cloud Instance Segmentation from 3D Synthetic Scenes はコメントを受け付けていません

Beyond a Single Mode: GAN Ensembles for Diverse Medical Data Generation

要約

特に医療イメージングにおける生成AIの進歩は、合成データ生成における忠実度、多様性、効率を確保するというトリレマに直面しています。
生成的敵対ネットワーク(GAN)はさまざまなアプリケーションで有望であることを示していますが、モードの崩壊や実際のデータ分布の不十分なカバレッジなどの課題に依然として課題に直面しています。
この作品では、特に医療イメージングの文脈で、これらの制限を克服するためのGanアンサンブルの使用を探ります。
忠実度と多様性のバランスをとる多目的最適化問題を解決することにより、医療データに合わせたGANSの最適なアンサンブルを選択する方法を提案します。
選択されたアンサンブルは、真のデータ分布と計算効率を表す多様な合成医療画像を生成することができます。
アンサンブルの各モデルは、ユニークな貢献をもたらし、最小限の冗長性を確保します。
3つの異なる医療データセットを使用して包括的な評価を実施し、さまざまな損失関数と正規化手法を備えた22の異なるGANアーキテクチャをテストしました。
異なるトレーニングエポックでモデルをサンプリングすることにより、110の一意の構成を作成しました。
結果は、Ganアンサンブルの能力を強調して、合成医療画像の品質と有用性を高め、診断モデリングなどの下流タスクの有効性を改善します。

要約(オリジナル)

The advancement of generative AI, particularly in medical imaging, confronts the trilemma of ensuring high fidelity, diversity, and efficiency in synthetic data generation. While Generative Adversarial Networks (GANs) have shown promise across various applications, they still face challenges like mode collapse and insufficient coverage of real data distributions. This work explores the use of GAN ensembles to overcome these limitations, specifically in the context of medical imaging. By solving a multi-objective optimisation problem that balances fidelity and diversity, we propose a method for selecting an optimal ensemble of GANs tailored for medical data. The selected ensemble is capable of generating diverse synthetic medical images that are representative of true data distributions and computationally efficient. Each model in the ensemble brings a unique contribution, ensuring minimal redundancy. We conducted a comprehensive evaluation using three distinct medical datasets, testing 22 different GAN architectures with various loss functions and regularisation techniques. By sampling models at different training epochs, we crafted 110 unique configurations. The results highlight the capability of GAN ensembles to enhance the quality and utility of synthetic medical images, thereby improving the efficacy of downstream tasks such as diagnostic modelling.

arxiv情報

著者 Lorenzo Tronchin,Tommy Löfstedt,Paolo Soda,Valerio Guarrasi
発行日 2025-03-31 16:06:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Beyond a Single Mode: GAN Ensembles for Diverse Medical Data Generation はコメントを受け付けていません

The impact of internal variability on benchmarking deep learning climate emulators

要約

完全複雑さのアースシステムモデル(ESM)は計算的に非常に高価であり、複数の排出経路の気候の結果を調査する際の使用を制限しています。
ESMを近似するより効率的なエミュレーターは、排出量を気候転帰に直接マッピングでき、ベンチマークが標準化されたタスクとデータセットの精度を評価するために使用されています。
データ駆動型の気候エミュレーションであるClimateBenchの一般的なベンチマークを調査します。このベンチは、深い学習ベースのエミュレーターが現在最高のパフォーマンスを達成しています。
これらの深い学習エミュレータを、パターンスケーリングに似た線形回帰ベースのエミュレーターと比較し、既存の100mパラメーターディープラーニングファンデーションモデルであるクライマックスを、地域的に分解した4つの気候変数、特に表面温度と降水量の3で上にします。
表面温度をエミュレートすることは主に直線的であると予想されますが、この結果は降水量をエミュレートすることで驚くべきことです。
降水量ははるかに騒々しい変数であり、深い学習エミュレータが低周波数で内部変動ノイズに過剰に促進できることを示し、線形エミュレータと比較してパフォーマンスを低下させます。
排出経路あたりの気候シミュレーションの数を増やし(3〜50)、MPI-ESM1.2-LRモデルのそれぞれのアンサンブル平均を使用してベンチマークターゲットを更新することにより、過剰適合の問題に対処します。
新しいターゲットを使用して、線形パターンのスケーリングは温度でより正確であり続けることを示していますが、降水をエミュレートするための深い学習ベースの手法によってアウトパフォームすることができることを示します。
github.com/blutjens/climate-emulatorでコードとデータを公開しています。

要約(オリジナル)

Full-complexity Earth system models (ESMs) are computationally very expensive, limiting their use in exploring the climate outcomes of multiple emission pathways. More efficient emulators that approximate ESMs can directly map emissions onto climate outcomes, and benchmarks are being used to evaluate their accuracy on standardized tasks and datasets. We investigate a popular benchmark in data-driven climate emulation, ClimateBench, on which deep learning-based emulators are currently achieving the best performance. We compare these deep learning emulators with a linear regression-based emulator, akin to pattern scaling, and show that it outperforms the incumbent 100M-parameter deep learning foundation model, ClimaX, on 3 out of 4 regionally-resolved climate variables, notably surface temperature and precipitation. While emulating surface temperature is expected to be predominantly linear, this result is surprising for emulating precipitation. Precipitation is a much more noisy variable, and we show that deep learning emulators can overfit to internal variability noise at low frequencies, degrading their performance in comparison to a linear emulator. We address the issue of overfitting by increasing the number of climate simulations per emission pathway (from 3 to 50) and updating the benchmark targets with the respective ensemble averages from the MPI-ESM1.2-LR model. Using the new targets, we show that linear pattern scaling continues to be more accurate on temperature, but can be outperformed by a deep learning-based technique for emulating precipitation. We publish our code and data at github.com/blutjens/climate-emulator.

arxiv情報

著者 Björn Lütjens,Raffaele Ferrari,Duncan Watson-Parris,Noelle Selin
発行日 2025-03-31 16:06:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.CV, cs.LG | The impact of internal variability on benchmarking deep learning climate emulators はコメントを受け付けていません