CoDEx: Combining Domain Expertise for Spatial Generalization in Satellite Image Analysis

要約

地形の外観のグローバルなバリエーションは、衛星画像分析の大きな課題を引き起こし、テスト時に遭遇した場所とは異なる場所でのトレーニングの際にモデルのパフォーマンスが低下します。
これは、最近の大規模なグローバルデータセットでも真実のままです。
この課題に対処するために、衛星画像用の新しいドメインジェネレーションフレームワークを提案します。
単一の一般化可能なモデルを学習しようとする代わりに、トレーニングドメインごとに1つの専門家モデルをトレーニングし、専門家の類似性を学び、同様の専門家が一貫性を持たせることを奨励しています。
モデル選択モジュールは、特定のテストサンプルに最も適した専門家を識別し、予測を集約します。
4つのデータセット(DynamicearthNet、Muds、OSCD、およびFMOW)での実験は、既存のドメイン一般化と適応方法に対する一貫した利益を示しています。
私たちのコードは、https://github.com/abhishek19009/codexで公開されています。

要約(オリジナル)

Global variations in terrain appearance raise a major challenge for satellite image analysis, leading to poor model performance when training on locations that differ from those encountered at test time. This remains true even with recent large global datasets. To address this challenge, we propose a novel domain-generalization framework for satellite images. Instead of trying to learn a single generalizable model, we train one expert model per training domain, while learning experts’ similarity and encouraging similar experts to be consistent. A model selection module then identifies the most suitable experts for a given test sample and aggregates their predictions. Experiments on four datasets (DynamicEarthNet, MUDS, OSCD, and FMoW) demonstrate consistent gains over existing domain generalization and adaptation methods. Our code is publicly available at https://github.com/Abhishek19009/CoDEx.

arxiv情報

著者 Abhishek Kuriyal,Elliot Vincent,Mathieu Aubry,Loic Landrieu
発行日 2025-04-28 12:33:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CoDEx: Combining Domain Expertise for Spatial Generalization in Satellite Image Analysis はコメントを受け付けていません

Contrastive Language-Image Learning with Augmented Textual Prompts for 3D/4D FER Using Vision-Language Model

要約

このホワイトペーパーでは、3D/4Dデータからの顔の感情の意味的に豊富で視覚的に包括的な理解のためにマルチビューを統合するように設計されたビジョン言語モデルであるEfffutVLMを紹介します。
視覚的特徴を効果的にキャプチャするために、モデルの収束を最適な特徴表現に加速する新しいグラデーションに優しい損失関数と組み合わせた共同表現学習フレームワークを提案します。
さらに、モデルの言語機能を強化し、視覚データセットを拡張するために混合ビューの増強を採用するために、拡張されたテキストプロンプトを導入します。
また、リアルタイムのインタラクティブな推論用の流線ライトアプリを開発し、分散学習のモデルを有効にします。
広範な実験では、複数のベンチマークにわたるEfffutVLMの優れたパフォーマンスを検証します。

要約(オリジナル)

In this paper, we introduce AffectVLM, a vision-language model designed to integrate multiviews for a semantically rich and visually comprehensive understanding of facial emotions from 3D/4D data. To effectively capture visual features, we propose a joint representation learning framework paired with a novel gradient-friendly loss function that accelerates model convergence towards optimal feature representation. Additionally, we introduce augmented textual prompts to enhance the model’s linguistic capabilities and employ mixed view augmentation to expand the visual dataset. We also develop a Streamlit app for a real-time interactive inference and enable the model for distributed learning. Extensive experiments validate the superior performance of AffectVLM across multiple benchmarks.

arxiv情報

著者 Muzammil Behzad,Guoying Zhao
発行日 2025-04-28 12:36:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Contrastive Language-Image Learning with Augmented Textual Prompts for 3D/4D FER Using Vision-Language Model はコメントを受け付けていません

EcoWikiRS: Learning Ecological Representation of Satellite Images from Weak Supervision with Species Observations and Wikipedia

要約

種の存在は、土地被覆、気候条件、さらには土壌特性などの場所の生態学的特性に関する重要な洞察を提供します。
そのような生態学的特性を、種の生息地の記述に合わせて、リモートセンシング(RS)画像から直接予測する方法を提案します。
高解像度の航空画像、対応する地球浸漬種の観察、および各種について、ウィキペディアからの生息地のテキストの説明で構成されるEcowikirsデータセットを紹介します。
Ecowikirsは、生態学のRS Vision言語モデル(RS-VLMS)のスケーラブルな監督方法を提供します。
これは、たとえば、種のニッチの一部にのみ固有のプロパティまたは特定の画像とは無関係のテキストを説明する場合がある場合、弱くて騒々しい監督を備えた設定です。
Infonceの損失の加重バージョンであるWincelを提案することにより、これに取り組みます。
欧州自然情報システム(EUNIS)の生息地の定義に従って、生態系ゼロショット分類のタスクに関するモデルを評価します。
私たちの結果は、私たちのアプローチがより生態学的に意味のある方法でRS画像を理解するのに役立つことを示しています。
コードとデータセットは、https://github.com/eceo-epfl/ecowikirsで入手できます。

要約(オリジナル)

The presence of species provides key insights into the ecological properties of a location such as land cover, climatic conditions or even soil properties. We propose a method to predict such ecological properties directly from remote sensing (RS) images by aligning them with species habitat descriptions. We introduce the EcoWikiRS dataset, consisting of high-resolution aerial images, the corresponding geolocated species observations, and, for each species, the textual descriptions of their habitat from Wikipedia. EcoWikiRS offers a scalable way of supervision for RS vision language models (RS-VLMs) for ecology. This is a setting with weak and noisy supervision, where, for instance, some text may describe properties that are specific only to part of the species’ niche or is irrelevant to a specific image. We tackle this by proposing WINCEL, a weighted version of the InfoNCE loss. We evaluate our model on the task of ecosystem zero-shot classification by following the habitat definitions from the European Nature Information System (EUNIS). Our results show that our approach helps in understanding RS images in a more ecologically meaningful manner. The code and the dataset are available at https://github.com/eceo-epfl/EcoWikiRS.

arxiv情報

著者 Valerie Zermatten,Javiera Castillo-Navarro,Pallavi Jain,Devis Tuia,Diego Marcos
発行日 2025-04-28 12:42:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | EcoWikiRS: Learning Ecological Representation of Satellite Images from Weak Supervision with Species Observations and Wikipedia はコメントを受け付けていません

A prototype-based model for set classification

要約

入力のセット(画像やテキストなど)の分類は、コンピュータービジョン(CV)と自然言語処理(NLP)の両方の研究領域です。
一連のベクトルを表す一般的な方法は、それらを線形部分空間としてモデル化することです。
この貢献では、このような線形サブスペースから形成されたマニホールドであるグラスマンマニホールドで学習するためのプロトタイプベースのアプローチを提示します。
提案された方法は、クラスの代表的な特性をキャプチャする一連の部分空間プロトタイプと、サブスペースの次元の選択を自動化する一連の関連要因を学習します。
これにより、各入力ベクトルの計算された影響が決定に及ぼす透明な分類剤モデルにつながります。
ベンチマーク画像とテキストデータセットの実験を通じて、パフォーマンスと説明可能性だけでなく計算リソース要件の観点から、変圧器ベースのモデルと比較して、提案された分類器の効率を実証しました。

要約(オリジナル)

Classification of sets of inputs (e.g., images and texts) is an active area of research within both computer vision (CV) and natural language processing (NLP). A common way to represent a set of vectors is to model them as linear subspaces. In this contribution, we present a prototype-based approach for learning on the manifold formed from such linear subspaces, the Grassmann manifold. Our proposed method learns a set of subspace prototypes capturing the representative characteristics of classes and a set of relevance factors automating the selection of the dimensionality of the subspaces. This leads to a transparent classifier model which presents the computed impact of each input vector on its decision. Through experiments on benchmark image and text datasets, we have demonstrated the efficiency of our proposed classifier, compared to the transformer-based models in terms of not only performance and explainability but also computational resource requirements.

arxiv情報

著者 Mohammad Mohammadi,Sreejita Ghosh
発行日 2025-04-28 12:46:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | A prototype-based model for set classification はコメントを受け付けていません

STCOcc: Sparse Spatial-Temporal Cascade Renovation for 3D Occupancy and Scene Flow Prediction

要約

3D占有率とシーンフローは、3Dシーンの詳細かつ動的な表現を提供します。
3D空間の恒星と複雑さを認識して、以前の視覚中心の方法は、空間情報と時間的情報をモデル化するための暗黙の学習ベースのアプローチを採用しています。
ただし、これらのアプローチは、地元の詳細を把握し、モデルの空間識別能力を低下させるのに苦労しています。
これらの課題に対処するために、占有状態を活用して3D機能を改修するように設計された新しい明示的な状態ベースのモデリング方法を提案します。
具体的には、占有された状態情報のガイダンスで3D機能を正確に改装するカスケード洗練戦略と統合されたスパースオクルージョンを意識した注意メカニズムを提案します。
さらに、長期的な動的相互作用をモデル化するための新しい方法を導入し、計算コストを削減し、空間情報を保存します。
以前の最先端の方法と比較して、当社の効率的な明示的な改修戦略は、占有率とシーンフローの予測のためにRayiouとMoveの点で優れたパフォーマンスを提供するだけでなく、トレーニング中のGPUメモリ使用量を著しく削減し、8.7GBに引き下げます。
当社のコードは、https://github.com/lzzzzzm/stcoccで入手できます

要約(オリジナル)

3D occupancy and scene flow offer a detailed and dynamic representation of 3D scene. Recognizing the sparsity and complexity of 3D space, previous vision-centric methods have employed implicit learning-based approaches to model spatial and temporal information. However, these approaches struggle to capture local details and diminish the model’s spatial discriminative ability. To address these challenges, we propose a novel explicit state-based modeling method designed to leverage the occupied state to renovate the 3D features. Specifically, we propose a sparse occlusion-aware attention mechanism, integrated with a cascade refinement strategy, which accurately renovates 3D features with the guidance of occupied state information. Additionally, we introduce a novel method for modeling long-term dynamic interactions, which reduces computational costs and preserves spatial information. Compared to the previous state-of-the-art methods, our efficient explicit renovation strategy not only delivers superior performance in terms of RayIoU and mAVE for occupancy and scene flow prediction but also markedly reduces GPU memory usage during training, bringing it down to 8.7GB. Our code is available on https://github.com/lzzzzzm/STCOcc

arxiv情報

著者 Zhimin Liao,Ping Wei,Shuaijia Chen,Haoxuan Wang,Ziyang Ren
発行日 2025-04-28 12:49:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | STCOcc: Sparse Spatial-Temporal Cascade Renovation for 3D Occupancy and Scene Flow Prediction はコメントを受け付けていません

Hybrid Approach Combining Ultrasound and Blood Test Analysis with a Voting Classifier for Accurate Liver Fibrosis and Cirrhosis Assessment

要約

肝臓肝硬変は、正常な肝臓組織の線維性瘢痕組織の置換と主要な健康上の合併症を引き起こす潜行性の状態です。
肝生検を使用した従来の診断方法は侵襲的であり、したがって、定期的なスクリーニングで使用するのに不便です。
この論文では、機械学習技術と臨床データおよび超音波スカンを組み合わせたハイブリッドモデルを紹介し、肝臓線維症と肝硬変検出の精度を改善します。
このモデルは、固定された血液検査の確率を、超音波画像の深い学習モデルの予測(Densenet-2011)と統合します。
組み合わせたハイブリッドモデルは、92.5%の精度を達成しました。
この調査結果は、診断の精度を高め、肝臓疾患ケアの早期介入をサポートする際に、結合されたモデルの実行可能性を確立します。

要約(オリジナル)

Liver cirrhosis is an insidious condition involving the substitution of normal liver tissue with fibrous scar tissue and causing major health complications. The conventional method of diagnosis using liver biopsy is invasive and, therefore, inconvenient for use in regular screening. In this paper,we present a hybrid model that combines machine learning techniques with clinical data and ultrasoundscans to improve liver fibrosis and cirrhosis detection accuracy is presented. The model integrates fixed blood test probabilities with deep learning model predictions (DenseNet-201) for ultrasonic images. The combined hybrid model achieved an accuracy of 92.5%. The findings establish the viability of the combined model in enhancing diagnosis accuracy and supporting early intervention in liver disease care.

arxiv情報

著者 Kapil Kashyap,Sean Fargose,Chrisil Dabre,Fatema Dolaria,Nilesh Patil,Aniket Kore
発行日 2025-04-28 12:54:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Hybrid Approach Combining Ultrasound and Blood Test Analysis with a Voting Classifier for Accurate Liver Fibrosis and Cirrhosis Assessment はコメントを受け付けていません

Learning Brenier Potentials with Convex Generative Adversarial Neural Networks

要約

Brenierは、ソースおよびターゲット確率測定の特定の条件下で、その勾配がソースからターゲット分布への輸送マップであるように、厳密に凸関数が存在することを証明しました。
この関数は、ブレニエ電位と呼ばれます。
さらに、ブレニエポテンシャルのh \ ‘より古い規則性に関する詳細情報が利用可能です。
この作業では、ブレニエの可能性を学習する生成的敵対的な神経ネットワークの統計学習理論を開発します。
密度式の変換によって、生成された測定の密度は、ブレニエ電位の2番目の微分に依存します。
密度。
このような一般的なネットワークの凸性を保証するために、古典的な識別子クロスエントロピー損失を(厳密な)凸性を施行するペナルティ期間を組み合わせたRecuネットワークによって表される潜在的な関数について、敵対的なトレーニング手順を導入します。
学習エラーの詳細な分解を示し、適切な高いペナルティパラメーターの場合、敵対的なMIN-MAX最適化問題で選択されたすべてのネットワークが厳密に凸であることを示します。
これは、ネットワーク容量を拡大する(ゆっくりと)学習手順の一貫性を証明するためにさらに活用されます。
また、記載されている学習アルゴリズムを実装し、ガウス混合物からターゲット分布として画像データまで多くの標準テストケースに適用します。
理論的に予測されているように、トレーニングプロセス中に凸の損失が非アクティブになり、ニューラルネットワークによって表される可能性が凸性を学んだことが観察されます。

要約(オリジナル)

Brenier proved that under certain conditions on a source and a target probability measure there exists a strictly convex function such that its gradient is a transport map from the source to the target distribution. This function is called the Brenier potential. Furthermore, detailed information on the H\’older regularity of the Brenier potential is available. In this work we develop the statistical learning theory of generative adversarial neural networks that learn the Brenier potential. As by the transformation of densities formula, the density of the generated measure depends on the second derivative of the Brenier potential, we develop the universal approximation theory of ReCU networks with cubic activation $\mathtt{ReCU}(x)=\max\{0,x\}^3$ that combines the favorable approximation properties of H\’older functions with a Lipschitz continuous density. In order to assure the convexity of such general networks, we introduce an adversarial training procedure for a potential function represented by the ReCU networks that combines the classical discriminator cross entropy loss with a penalty term that enforces (strict) convexity. We give a detailed decomposition of learning errors and show that for a suitable high penalty parameter all networks chosen in the adversarial min-max optimization problem are strictly convex. This is further exploited to prove the consistency of the learning procedure for (slowly) expanding network capacity. We also implement the described learning algorithm and apply it to a number of standard test cases from Gaussian mixture to image data as target distributions. As predicted in theory, we observe that the convexity loss becomes inactive during the training process and the potentials represented by the neural networks have learned convexity.

arxiv情報

著者 Claudia Drygala,Hanno Gottschalk,Thomas Kruse,Ségolène Martin,Annika Mütze
発行日 2025-04-28 13:24:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Learning Brenier Potentials with Convex Generative Adversarial Neural Networks はコメントを受け付けていません

OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision

要約

命令ガイド付き画像編集方法は、自動的に合成または手動で注釈付きの画像編集ペアで拡散モデルをトレーニングすることにより、重要な可能性を実証しています。
ただし、これらの方法は、実用的な実際のアプリケーションとはほど遠いままです。
このギャップに寄与する3つの主要な課題を特定します。
第一に、既存のモデルの偏った合成プロセスにより、編集スキルは限られています。
第二に、これらの方法は、大量のノイズとアーティファクトを備えたデータセットでトレーニングされています。
これは、クリップスコアなどの単純なフィルタリング方法の適用によるものです。
第三に、これらのすべてのデータセットは、単一の低解像度と固定アスペクト比に制限されており、実際のユースケースを処理するための汎用性を制限します。
このホワイトペーパーでは、あらゆるアスペクト比でシームレスに7つの異なる画像編集タスクを処理する全能エディターである\ omnieditを提示します。
私たちの貢献は4倍になります。(1)\ omnieditは、7つの異なる専門モデルの監督を利用してタスクのカバレッジを確保することで訓練されています。
(2)データ品質を向上させるために、クリップスコアの代わりに大規模なマルチモーダルモデル(GPT-4Oなど)が提供するスコアに基づいて重要なサンプリングを利用します。
(3)編集の成功率を大幅に高めるために、編集と呼ばれる新しい編集アーキテクチャを提案します。(4)モデルが野生の任意の画像を処理できるように、異なるアスペクト比の画像を提供します。
さまざまなアスペクト比の画像を含むテストセットをキュレーションし、さまざまなタスクをカバーするための多様な指示を伴いました。
自動評価と人間の評価の両方が、\ omnieditが既存のすべてのモデルを大幅に上回ることができることを示しています。
私たちのコード、データセット、モデルはhttps://tiger-ai-lab.github.io/omniedit/で入手できます。

要約(オリジナル)

Instruction-guided image editing methods have demonstrated significant potential by training diffusion models on automatically synthesized or manually annotated image editing pairs. However, these methods remain far from practical, real-life applications. We identify three primary challenges contributing to this gap. Firstly, existing models have limited editing skills due to the biased synthesis process. Secondly, these methods are trained with datasets with a high volume of noise and artifacts. This is due to the application of simple filtering methods like CLIP-score. Thirdly, all these datasets are restricted to a single low resolution and fixed aspect ratio, limiting the versatility to handle real-world use cases. In this paper, we present \omniedit, which is an omnipotent editor to handle seven different image editing tasks with any aspect ratio seamlessly. Our contribution is in four folds: (1) \omniedit is trained by utilizing the supervision from seven different specialist models to ensure task coverage. (2) we utilize importance sampling based on the scores provided by large multimodal models (like GPT-4o) instead of CLIP-score to improve the data quality. (3) we propose a new editing architecture called EditNet to greatly boost the editing success rate, (4) we provide images with different aspect ratios to ensure that our model can handle any image in the wild. We have curated a test set containing images of different aspect ratios, accompanied by diverse instructions to cover different tasks. Both automatic evaluation and human evaluations demonstrate that \omniedit can significantly outperform all the existing models. Our code, dataset and model will be available at https://tiger-ai-lab.github.io/OmniEdit/

arxiv情報

著者 Cong Wei,Zheyang Xiong,Weiming Ren,Xinrun Du,Ge Zhang,Wenhu Chen
発行日 2025-04-28 14:16:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision はコメントを受け付けていません

Joint Optimization of Neural Radiance Fields and Continuous Camera Motion from a Monocular Video

要約

ニューラル放射輝度フィールド(NERF)は、3Dジオメトリを表現する優れた能力を実証していますが、トレーニング中に正確に事前に計算されたカメラのポーズが必要です。
この要件を緩和するために、既存のメソッドはカメラのポーズを共同で最適化し、NERFはしばしば良いポーズ初期化または深さのプライアーに依存します。
ただし、これらのアプローチは、各カメラが世界座標系にマッピングするため、大きな回転などの挑戦的なシナリオに苦労しています。
連続カメラの動きを時間依存の角速度と速度としてモデル化することにより、以前の依存関係を排除する新しい方法を提案します。
カメラ間の相対的な動きは速度統合を介して最初に学習されますが、ビデオ内の1回の時間ステップで定義された世界座標系までこのような相対的な動きを集約することにより、カメラのポーズを取得できます。
具体的には、正確な連続カメラの動きは、時間依存のナーフを通じて学習されます。これは、各タイムステップで隣接するフレームからトレーニングすることにより、ローカルシーンのジオメトリと動きをキャプチャします。
学習された動きにより、NERFを微調整してシーン全体のジオメトリを表すことができます。
CO3DとScannetの実験は、私たちのアプローチが、最先端の方法と比較して、優れたカメラのポーズと深さの推定、および同等の新規ビュー合成パフォーマンスを達成することを示しています。
私たちのコードは、https://github.com/hoangchuongnguyen/cope-nerfで入手できます。

要約(オリジナル)

Neural Radiance Fields (NeRF) has demonstrated its superior capability to represent 3D geometry but require accurately precomputed camera poses during training. To mitigate this requirement, existing methods jointly optimize camera poses and NeRF often relying on good pose initialisation or depth priors. However, these approaches struggle in challenging scenarios, such as large rotations, as they map each camera to a world coordinate system. We propose a novel method that eliminates prior dependencies by modeling continuous camera motions as time-dependent angular velocity and velocity. Relative motions between cameras are learned first via velocity integration, while camera poses can be obtained by aggregating such relative motions up to a world coordinate system defined at a single time step within the video. Specifically, accurate continuous camera movements are learned through a time-dependent NeRF, which captures local scene geometry and motion by training from neighboring frames for each time step. The learned motions enable fine-tuning the NeRF to represent the full scene geometry. Experiments on Co3D and Scannet show our approach achieves superior camera pose and depth estimation and comparable novel-view synthesis performance compared to state-of-the-art methods. Our code is available at https://github.com/HoangChuongNguyen/cope-nerf.

arxiv情報

著者 Hoang Chuong Nguyen,Wei Mao,Jose M. Alvarez,Miaomiao Liu
発行日 2025-04-28 14:22:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Joint Optimization of Neural Radiance Fields and Continuous Camera Motion from a Monocular Video はコメントを受け付けていません

Mjölnir: A Deep Learning Parametrization Framework for Global Lightning Flash Density

要約

FourcastNet、Pangu-Weather、GraphcastなどのAIベースの気象予測モデルの最近の進歩は、複雑な大気ダイナミクスをエミュレートする深い学習の顕著な能力を実証しています。
この勢いに基づいて、グローバルな稲妻フラッシュ密度パラメーター化のための新しい深い学習ベースのフレームワークであるMj \ ‘Olnirを提案します。
ERA5の大気予測因子とワールドワイドライトニングロケーションネットワーク(wwlln)の観測では、毎日の時間分解能と1度の空間解像度で観察されたMJ \ ‘Olnirは、大規模な環境条件と稲妻活動の間の非線形マッピングをキャプチャします。
モデルアーキテクチャは、Senetを備えたInceptionNextバックボーンと、稲妻の発生と大きさを同時に予測するためのマルチタスク学習戦略に基づいています。
大規模な評価では、モルニルが稲妻活動の世界的な分布、季節変動、および地域的特性を正確に再現し、年間平均場で0.96のグローバルなピアソン相関係数を達成するという得られます。
これらの結果は、MJ \ ‘Olnirが効果的なデータ駆動型のグローバルライトニングパラメーター化としてだけでなく、次世代の地球システムモデル(AI-ESM)の有望なAIベースのスキームとしても機能することを示唆しています。

要約(オリジナル)

Recent advances in AI-based weather forecasting models, such as FourCastNet, Pangu-Weather, and GraphCast, have demonstrated the remarkable ability of deep learning to emulate complex atmospheric dynamics. Building on this momentum, we propose Mj\’olnir, a novel deep learning-based framework for global lightning flash density parameterization. Trained on ERA5 atmospheric predictors and World Wide Lightning Location Network (WWLLN) observations at a daily temporal resolution and 1 degree spatial resolution, Mj\’olnir captures the nonlinear mapping between large-scale environmental conditions and lightning activity. The model architecture is based on the InceptionNeXt backbone with SENet, and a multi-task learning strategy to simultaneously predict lightning occurrence and magnitude. Extensive evaluations yield that Mollnir accurately reproduces the global distribution, seasonal variability, and regional characteristics of lightning activity, achieving a global Pearson correlation coefficient of 0.96 for annual mean fields. These results suggest that Mj\’olnir serves not only as an effective data-driven global lightning parameterization but also as a promising AI-based scheme for next-generation Earth system models (AI-ESMs).

arxiv情報

著者 Minjong Cheon
発行日 2025-04-28 14:22:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, physics.ao-ph | Mjölnir: A Deep Learning Parametrization Framework for Global Lightning Flash Density はコメントを受け付けていません