Score-based diffusion nowcasting of GOES imagery

要約

雲と降水量は、天候と気候を理解するために重要です。
雲のシミュレーションと従来の数値の天気予測での降水量は、サブグリッドパラメーター化が必要なため、困難です。
機械学習は、雲と降水の予測のために調査されていますが、早期の機械学習方法はしばしばぼやけた予測を作成しました。
このペーパーでは、スコアベースの拡散という名前の新しい方法(ゼロから3時間の予測)クラウドと降水を検討します。
スコアベースの拡散モデルの背景と直観について説明します – したがって、コミュニティの出発点を提供します – ガステーションの赤外線画像の速さでの方法論の使用を調査します。
3つの主要なタイプの拡散モデルを実験します。標準スコアベースの拡散モデル(DIFF)。
残留補正拡散モデル(Corrdiff);
潜在拡散モデル(LDM)。
我々の結果は、拡散モデルが既存の雲を移行するだけでなく、対流開始を含む雲を生成および崩壊させることができることを示しています。
これらの結果は驚くべきことです。なぜなら、予測は過去20分間の赤外線衛星画像で開始されるためです。
ケーススタディでは、従来の平均2乗エラートレーニングUNETよりも、高解像度の特徴の保存が予測により長く保存されていることを定性的に示しています。
テストされた3つの拡散モデルの中で最高のアプローチは、他のすべての拡散モデル、従来のU-NET、およびルート平均二乗エラーで1〜2ケルビンの持続性予測を上回る回路アプローチでした。
拡散モデルは、すぐにボックスのアンサンブル生成を可能にします。これは、アンサンブルの拡散がエラーとよく相関するように熟練したキャリブレーションを示します。

要約(オリジナル)

Clouds and precipitation are important for understanding weather and climate. Simulating clouds and precipitation with traditional numerical weather prediction is challenging because of the sub-grid parameterizations required. Machine learning has been explored for forecasting clouds and precipitation, but early machine learning methods often created blurry forecasts. In this paper we explore a newer method, named score-based diffusion, to nowcast (zero to three hour forecast) clouds and precipitation. We discuss the background and intuition of score-based diffusion models – thus providing a starting point for the community – while exploring the methodology’s use for nowcasting geostationary infrared imagery. We experiment with three main types of diffusion models: a standard score-based diffusion model (Diff); a residual correction diffusion model (CorrDiff); and a latent diffusion model (LDM). Our results show that the diffusion models are able to not only advect existing clouds, but also generate and decay clouds, including convective initiation. These results are surprising because the forecasts are initiated with only the past 20 mins of infrared satellite imagery. A case study qualitatively shows the preservation of high resolution features longer into the forecast than a conventional mean-squared error trained U-Net. The best of the three diffusion models tested was the CorrDiff approach, outperforming all other diffusion models, the traditional U-Net, and a persistence forecast by one to two kelvin on root mean squared error. The diffusion models also enable out-of-the-box ensemble generation, which shows skillful calibration, with the spread of the ensemble correlating well to the error.

arxiv情報

著者 Randy J. Chase,Katherine Haynes,Lander Ver Hoef,Imme Ebert-Uphoff
発行日 2025-05-15 15:51:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.ao-ph | Score-based diffusion nowcasting of GOES imagery はコメントを受け付けていません

Identification and Optimal Nonlinear Control of Turbojet Engine Using Koopman Eigenfunction Model

要約

ガスタービンエンジンは、複雑な非常に非線形動力システムを表しています。
物理ベースのモデルを導き出すことは、パフォーマンスの特性を必要とするため、常に利用できるとは限らないため、挑戦的です。
このホワイトペーパーでは、閉ループ制御下で標準エンジン動作から収集されたデータに基づいて識別技術を採用することにより、コンポーネントレベルおよび局所線形パラメーター変化モデルの導出に使用される従来の実験方法の制限について説明し、対処します。
ローターダイナミクスは、非線形ダイナミクスのまばらな識別を使用して推定されました。
その後、ダイナミクスの自律的な部分は、最適に構築されたKoopman固有機能空間にマッピングされました。
このプロセスには、メタヒューリスティックなアルゴリズムと時間投影を使用した固有値の最適化が含まれ、その後勾配ベースの固有関数識別が続きました。
結果のKoopmanモデルは、社内参照コンポーネントレベルモデルに対して検証されました。
次に、グローバルに最適な非線形フィードバックコントローラーとカルマン推定器が、固有関数空間で設計され、古典的およびゲインスケジュールされた比例統合コントローラー、および提案された内部モデル制御アプローチと比較しました。
固有モード構造により、最適化プロセス中に個々のモードをターゲットにし、パフォーマンスの調整が向上しました。
結果は、Koopmanベースのコントローラーが、そのグローバルな性質により、海面およびさまざまな飛行条件下で、参照追跡と妨害拒絶の両方で他のベンチマークコントローラーを上回ることを示しました。

要約(オリジナル)

Gas turbine engines represent complex highly nonlinear dynamical systems. Deriving their physics-based models can be challenging as it requires performance characteristics, that are not always available, and one often has to make many simplifying assumptions. In this paper, the limitations of conventional experimental methods used to derive component-level and locally linear parameter-varying models are discussed and addressed by employing identification techniques based on data collected from standard engine operation under closed-loop control. The rotor dynamics were estimated using the sparse identification of nonlinear dynamics. Subsequently, the autonomous part of the dynamics was mapped into an optimally constructed Koopman eigenfunction space. The process included eigenvalue optimization using metaheuristic algorithms and temporal projection, followed by gradient-based eigenfunction identification. The resulting Koopman model was validated against an in-house reference component-level model. A globally optimal nonlinear feedback controller and a Kalman estimator were then designed in the eigenfunction space and compared to the classical and gain-scheduled proportional-integral controllers, as well as a proposed internal model control approach. The eigenmode structure allowed targeting individual modes during the optimization process, resulting in a better performance tuning. The results showed that the Koopman-based controller outperformed the other benchmark controllers in both reference tracking and disturbance rejection, under sea-level and varying flight conditions, due to its global nature.

arxiv情報

著者 David Grasev
発行日 2025-05-15 15:55:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY | Identification and Optimal Nonlinear Control of Turbojet Engine Using Koopman Eigenfunction Model はコメントを受け付けていません

Can AI weather models predict out-of-distribution gray swan tropical cyclones?

要約

灰色の白鳥の天気を予測する可能性がありますが、トレーニングデータセットに存在しないほどまれであることは、AI気象モデルと長期的な気候エミュレーターにとって大きな関心事です。
重要な未解決の問題は、AIモデルがトレーニングセットに存在する弱い気象現象から、より強力で目に見えない天候に至るまで外挿することができるかどうかです。
これをテストするために、1979年から2015年のERA5データセットのAIモデルFourCastNetの独立したバージョンをすべてのデータでトレーニングします。または、グローバルまたは北大西洋または西太平洋盆地でのみ、カテゴリ3-5熱帯低気圧(TCS)を除去します。
次に、2018-2023カテゴリ5 TCS(灰色の白鳥)でこれらのバージョンをFourcastNetのテストします。
すべてのバージョンは、世界の気象について同様の精度をもたらしますが、カテゴリ3-5 TCSなしで訓練されたものはカテゴリ5 TCを正確に予測することはできず、これらのモデルが弱い嵐から外挿できないことを示しています。
1つの盆地にカテゴリ3-5 TCSなしでトレーニングされたバージョンは、その流域にいくつかのスキル予測カテゴリ5 TCSを示しており、FourcastNetが熱帯流域全体で一般化できることを示唆しています。
地域情報は入力に暗黙的にエンコードされているため、これは励みになり、驚くべきことです。
現在の最先端のAIの天気と気候モデルには同様の学習戦略があることを考えると、調査結果が他のモデルに適用されると予想されます。
他のタイプの天候も同様に調査する必要があります。
私たちの研究は、AIモデルが最も希少で最も衝撃的なTCS、そしておそらく他の天気の極端なものについて、早期警告または推定統計を確実に提供するために、新しい学習戦略が必要であることを示しています。

要約(オリジナル)

Predicting gray swan weather extremes, which are possible but so rare that they are absent from the training dataset, is a major concern for AI weather models and long-term climate emulators. An important open question is whether AI models can extrapolate from weaker weather events present in the training set to stronger, unseen weather extremes. To test this, we train independent versions of the AI model FourCastNet on the 1979-2015 ERA5 dataset with all data, or with Category 3-5 tropical cyclones (TCs) removed, either globally or only over the North Atlantic or Western Pacific basin. We then test these versions of FourCastNet on 2018-2023 Category 5 TCs (gray swans). All versions yield similar accuracy for global weather, but the one trained without Category 3-5 TCs cannot accurately forecast Category 5 TCs, indicating that these models cannot extrapolate from weaker storms. The versions trained without Category 3-5 TCs in one basin show some skill forecasting Category 5 TCs in that basin, suggesting that FourCastNet can generalize across tropical basins. This is encouraging and surprising because regional information is implicitly encoded in inputs. Given that current state-of-the-art AI weather and climate models have similar learning strategies, we expect our findings to apply to other models. Other types of weather extremes need to be similarly investigated. Our work demonstrates that novel learning strategies are needed for AI models to reliably provide early warning or estimated statistics for the rarest, most impactful TCs, and, possibly, other weather extremes.

arxiv情報

著者 Y. Qiang Sun,Pedram Hassanzadeh,Mohsen Zand,Ashesh Chattopadhyay,Jonathan Weare,Dorian S. Abbot
発行日 2025-05-15 16:01:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.ao-ph | Can AI weather models predict out-of-distribution gray swan tropical cyclones? はコメントを受け付けていません

Inferring entropy production in many-body systems using nonequilibrium MaxEnt

要約

長いメモリを持つ多くの体系や非マルコビア系を含む高次元の確率的システムにおけるエントロピー生産(EP)を推測する方法を提案します。
EPを推定するための標準的な手法は、計算的および統計的な制限により、このようなシステムで扱いにくいものになります。
凸型の二重性とともに、最大エントロピー原理の非平衡アナログを活用することにより、平均して平均的なEPの軌跡レベルのEPおよび下限EPを推測します。
私たちのアプローチでは、軌道観測可能性のサンプルのみを使用しています(時空間相関関数など)。
高次元確率分布またはレートマトリックスの再構築も、離散状態やマルチパルタイトダイナミクスなどの特別な仮定も必要ありません。
さまざまな種類の相互作用からの貢献を反映して、EPの階層的分解を計算するために使用される場合があり、熱力学的不確実性の関係として直感的な物理的解釈があります。
1000のスピンと大規模な神経スパイクトレインデータセットを備えた無排除非平衡スピンモデルの数値性能を示します。

要約(オリジナル)

We propose a method for inferring entropy production (EP) in high-dimensional stochastic systems, including many-body systems and non-Markovian systems with long memory. Standard techniques for estimating EP become intractable in such systems due to computational and statistical limitations. We infer trajectory-level EP and lower bounds on average EP by exploiting a nonequilibrium analogue of the Maximum Entropy principle, along with convex duality. Our approach uses only samples of trajectory observables (such as spatiotemporal correlation functions). It does not require reconstruction of high-dimensional probability distributions or rate matrices, nor any special assumptions such as discrete states or multipartite dynamics. It may be used to compute a hierarchical decomposition of EP, reflecting contributions from different kinds of interactions, and it has an intuitive physical interpretation as a thermodynamic uncertainty relation. We demonstrate its numerical performance on a disordered nonequilibrium spin model with 1000 spins and a large neural spike-train dataset.

arxiv情報

著者 Miguel Aguilera,Sosuke Ito,Artemy Kolchinsky
発行日 2025-05-15 16:05:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.stat-mech, cs.LG, nlin.AO, q-bio.NC | Inferring entropy production in many-body systems using nonequilibrium MaxEnt はコメントを受け付けていません

Efficient MCMC Sampling with Expensive-to-Compute and Irregular Likelihoods

要約

マルコフチェーンモンテカルロ(MCMC)とのベイジアン推論は、尤度関数が不規則で高価な場合に挑戦的です。
サブセット評価を利用して計算オーバーヘッドを削減するいくつかのサンプリングアルゴリズムを調査します。
グラデーション情報が利用できないか、信頼できないこの設定にサブセットサンプラーを適応させます。
これを達成するために、Taylor拡張の代わりにデータ駆動型プロキシを導入し、新しい計算コストを認識している適応コントローラーを定義します。
私たちは、困難な疾患モデリングタスクと、尤度面に同様の不規則性を備えた構成可能なタスクについて広範な評価を行います。
ネストされたトレーニングサンプル(ヒント)により、適応型提案とデータ駆動型プロキシを使用して、階層的な重要性の改善されたバージョンが、固定計算予算で最良のサンプリングエラーを取得します。
サブセットの評価は、安価で自然に敏感な探索を提供できると結論付けていますが、データ駆動型のプロキシは、状態空間の探索した地域で事前に画面の提案を成功させることができます。
これらの2つの要素は、階層的な遅延の受け入れを組み合わせて、効率的で正確なサンプリングを達成します。

要約(オリジナル)

Bayesian inference with Markov Chain Monte Carlo (MCMC) is challenging when the likelihood function is irregular and expensive to compute. We explore several sampling algorithms that make use of subset evaluations to reduce computational overhead. We adapt the subset samplers for this setting where gradient information is not available or is unreliable. To achieve this, we introduce data-driven proxies in place of Taylor expansions and define a novel computation-cost aware adaptive controller. We undertake an extensive evaluation for a challenging disease modelling task and a configurable task with similar irregularity in the likelihood surface. We find our improved version of Hierarchical Importance with Nested Training Samples (HINTS), with adaptive proposals and a data-driven proxy, obtains the best sampling error in a fixed computational budget. We conclude that subset evaluations can provide cheap and naturally-tempered exploration, while a data-driven proxy can pre-screen proposals successfully in explored regions of the state space. These two elements combine through hierarchical delayed acceptance to achieve efficient, exact sampling.

arxiv情報

著者 Conor Rosato,Harvinder Lehal,Simon Maskell,Lee Devlin,Malcolm Strens
発行日 2025-05-15 16:06:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Efficient MCMC Sampling with Expensive-to-Compute and Irregular Likelihoods はコメントを受け付けていません

Multi-Objective Optimization-Based Anonymization of Structured Data for Machine Learning Application

要約

組織は膨大な量のデータを収集していますが、洞察を完全に抽出するために必要な機能が不足していることがよくあります。
その結果、彼らはそれから価値を得るために、アナリストや研究者などの外部の専門家とますますデータを共有しています。
ただし、このプラクティスでは、プライバシーリスクが大幅に発生します。
データ共有におけるプライバシーの懸念に対処するために、さまざまな手法が提案されています。
ただし、これらの方法はしばしばデータユーティリティを分解し、機械学習(ML)モデルのパフォーマンスに影響を与えます。
私たちの研究は、特にカテゴリ変数の処理と、多様なデータセット全体の有効性の評価において、プライバシー保存のための既存の最適化モデルの重要な制限を特定しています。
情報の損失を同時に最小限に抑え、攻撃に対する保護を最大化する新しい多目的最適化モデルを提案します。
このモデルは、多様なデータセットを使用して経験的に検証され、2つの既存のアルゴリズムと比較されます。
情報の損失、リンケージまたは均一性攻撃の対象となる個人の数、および匿名化後のMLパフォーマンスを評価します。
結果は、我々のモデルがより低い情報損失を達成し、攻撃のリスクをより効果的に軽減し、場合によっては代替アルゴリズムと比較してこれらの攻撃の影響を受けやすい個人の数を減らすことを示しています。
さらに、我々のモデルは、他の方法で匿名化された元のデータまたはデータと比較して、同等のMLパフォーマンスを維持しています。
私たちの調査結果は、プライバシー保護とMLモデルのパフォーマンスの大幅な改善を強調しており、データ共有におけるプライバシーとユーティリティのバランスをとるための包括的な拡張可能なフレームワークを提供します。

要約(オリジナル)

Organizations are collecting vast amounts of data, but they often lack the capabilities needed to fully extract insights. As a result, they increasingly share data with external experts, such as analysts or researchers, to gain value from it. However, this practice introduces significant privacy risks. Various techniques have been proposed to address privacy concerns in data sharing. However, these methods often degrade data utility, impacting the performance of machine learning (ML) models. Our research identifies key limitations in existing optimization models for privacy preservation, particularly in handling categorical variables, and evaluating effectiveness across diverse datasets. We propose a novel multi-objective optimization model that simultaneously minimizes information loss and maximizes protection against attacks. This model is empirically validated using diverse datasets and compared with two existing algorithms. We assess information loss, the number of individuals subject to linkage or homogeneity attacks, and ML performance after anonymization. The results indicate that our model achieves lower information loss and more effectively mitigates the risk of attacks, reducing the number of individuals susceptible to these attacks compared to alternative algorithms in some cases. Additionally, our model maintains comparable ML performance relative to the original data or data anonymized by other methods. Our findings highlight significant improvements in privacy protection and ML model performance, offering a comprehensive and extensible framework for balancing privacy and utility in data sharing.

arxiv情報

著者 Yusi Wei,Hande Y. Benson,Joseph K. Agor,Muge Capan
発行日 2025-05-15 16:07:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC | Multi-Objective Optimization-Based Anonymization of Structured Data for Machine Learning Application はコメントを受け付けていません

FlowVAT: Normalizing Flow Variational Inference with Affine-Invariant Tempering

要約

マルチモーダルおよび高次元後の事後は、変動推論に重大な課題を提示し、フローを正常化する理論的表現性にもかかわらず、モードを求める行動と崩壊を引き起こします。
従来のアニーリング方法には、温度スケジュールとハイパーパラメーターの調整が必要であり、真にブラックボックスの変動推論の目標に達していません。
これらの制限に対処するフロー変動推論を正規化するための条件付き強化アプローチであるFlowVatを紹介します。
私たちの方法は、ベース分布とターゲット分布の両方を同時に緩和し、強化の下でアフィン不変性を維持します。
温度上の正規化フローを条件付けることにより、高温の範囲を表す単一の流れをトレーニングするために、オーバーパラメーター化ニューラルネットワークの一般化機能を活用します。
これにより、$ t = 1 $で変動後の後方からサンプリングすると、より高い温度で識別されたモードが保存され、標準変動法のモードを求める動作を軽減します。
2、10、および20次元のマルチモーダル分布を使用した実験では、フローバットは従来の適応アニーリング方法よりも優れており、特に既存のアプローチが失敗する高次元では、より多くのモードを見つけ、より良いエルボ値を達成します。
私たちの方法では、最小限のハイパーパラメーターチューニングが必要であり、アニーリングスケジュールは必要ありません。複雑な事後の完全自動ブラックボックスの変動推論に向けて前進します。

要約(オリジナル)

Multi-modal and high-dimensional posteriors present significant challenges for variational inference, causing mode-seeking behavior and collapse despite the theoretical expressiveness of normalizing flows. Traditional annealing methods require temperature schedules and hyperparameter tuning, falling short of the goal of truly black-box variational inference. We introduce FlowVAT, a conditional tempering approach for normalizing flow variational inference that addresses these limitations. Our method tempers both the base and target distributions simultaneously, maintaining affine-invariance under tempering. By conditioning the normalizing flow on temperature, we leverage overparameterized neural networks’ generalization capabilities to train a single flow representing the posterior across a range of temperatures. This preserves modes identified at higher temperatures when sampling from the variational posterior at $T = 1$, mitigating standard variational methods’ mode-seeking behavior. In experiments with 2, 10, and 20 dimensional multi-modal distributions, FlowVAT outperforms traditional and adaptive annealing methods, finding more modes and achieving better ELBO values, particularly in higher dimensions where existing approaches fail. Our method requires minimal hyperparameter tuning and does not require an annealing schedule, advancing toward fully-automatic black-box variational inference for complicated posteriors.

arxiv情報

著者 Juehang Qin,Shixiao Liang,Christopher Tunnell
発行日 2025-05-15 16:20:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.CO, stat.ML | FlowVAT: Normalizing Flow Variational Inference with Affine-Invariant Tempering はコメントを受け付けていません

Large Language Models for Cancer Communication: Evaluating Linguistic Quality, Safety, and Accessibility in Generative AI

要約

乳がんと頸がんについての効果的なコミュニケーションは、癌の予防、スクリーニング、治療に関する一般の理解に大きなギャップがあり、診断の遅延や不十分な治療につながる可能性があるため、持続的な健康課題のままです。
この研究では、患者の理解をサポートするために、正確で安全でアクセスしやすい癌関連情報を生成する際に、大規模な言語モデル(LLM)の能力と制限を評価します。
言語の品質、安全性と信頼性、コミュニケーションのアクセシビリティと感情を介した混合メソッド評価フレームワークを使用して、5つの汎用と3つの医療LLMを評価しました。
私たちのアプローチは、ウェルチのANOVA、Games-Howell、およびHedges ‘Gを使用した定量的指標、定性的専門家の評価、および統計分析を利用しました。
我々の結果は、一般的なLLMがより高い言語の品質と感情の出力を生成し、医療LLMがコミュニケーションのアクセシビリティを高めることを示しています。
ただし、医療LLMは、より高いレベルの潜在的な害、毒性、バイアスを示す傾向があり、安全性と信頼性におけるパフォーマンスを低下させる傾向があります。
私たちの調査結果は、健康コミュニケーションにおけるドメイン固有の知識と安全性の間の二重性を示しています。
結果は、特に害とバイアスを緩和し、安全性と感情を改善する際に、ターゲットを絞った改善を伴う意図的なモデル設計の必要性を強調しています。
この研究は、がんコミュニケーションのためのLLMの包括的な評価を提供し、AIが生成された健康含有量を改善し、正確で安全でアクセス可能なデジタルヘルスツールの将来の開発を通知するための重要な洞察を提供します。

要約(オリジナル)

Effective communication about breast and cervical cancers remains a persistent health challenge, with significant gaps in public understanding of cancer prevention, screening, and treatment, potentially leading to delayed diagnoses and inadequate treatments. This study evaluates the capabilities and limitations of Large Language Models (LLMs) in generating accurate, safe, and accessible cancer-related information to support patient understanding. We evaluated five general-purpose and three medical LLMs using a mixed-methods evaluation framework across linguistic quality, safety and trustworthiness, and communication accessibility and affectiveness. Our approach utilized quantitative metrics, qualitative expert ratings, and statistical analysis using Welch’s ANOVA, Games-Howell, and Hedges’ g. Our results show that general-purpose LLMs produced outputs of higher linguistic quality and affectiveness, while medical LLMs demonstrate greater communication accessibility. However, medical LLMs tend to exhibit higher levels of potential harm, toxicity, and bias, reducing their performance in safety and trustworthiness. Our findings indicate a duality between domain-specific knowledge and safety in health communications. The results highlight the need for intentional model design with targeted improvements, particularly in mitigating harm and bias, and improving safety and affectiveness. This study provides a comprehensive evaluation of LLMs for cancer communication, offering critical insights for improving AI-generated health content and informing future development of accurate, safe, and accessible digital health tools.

arxiv情報

著者 Agnik Saha,Victoria Churchill,Anny D. Rodriguez,Ugur Kursuncu,Muhammed Y. Idris
発行日 2025-05-15 16:23:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Large Language Models for Cancer Communication: Evaluating Linguistic Quality, Safety, and Accessibility in Generative AI はコメントを受け付けていません

Unified Modeling Language Code Generation from Diagram Images Using Multimodal Large Language Models

要約

統一されたモデリング言語は、ソフトウェアシステムの設計のモデリングと文書化に広く使用されている標準化された視覚言語です。
多くのツールはUMLコードからUMLダイアグラムを生成しますが、画像ベースのUML図から実行可能UMLコードを生成することは依然として困難です。
このペーパーでは、大きなマルチモーダル言語モデルを自動的に使用してUMLコードを生成する新しいアプローチを提案します。
合成UMLアクティビティとシーケンス図データセットが作成され、モデルをトレーニングおよびテストしました。
基本モデルを最適化するために、標準の微調整とLORA技術を比較しました。
実験では、さまざまなモデルサイズとトレーニング戦略にわたるコード生成の精度を測定しました。
これらの結果は、ドメインに適応したMM-LLMがUMLコード生成オートメーションで機能することを実証しました。これにより、最良のモデルでは、シーケンス図で0.779および0.942のBLEとSIMスコアを達成しました。
これにより、レガシーシステムの近代化が可能になり、ソフトウェア開発ワークフローでの手動の取り組みが減少します。

要約(オリジナル)

The Unified Modeling Language is a standardized visual language widely used for modeling and documenting the design of software systems. Although many tools generate UML diagrams from UML code, generating executable UML code from image-based UML diagrams remains challenging. This paper proposes a new approach to generate UML code using a large multimodal language model automatically. Synthetic UML activity and sequence diagram datasets were created to train and test the model. We compared standard fine-tuning with LoRA techniques to optimize base models. The experiments measured code generation accuracy across different model sizes and training strategies. These results demonstrated that domain-adapted MM-LLMs perform for UML code generation automation, whereby, at the best model, it achieved BLEU and SSIM scores of 0.779 and 0.942 on sequence diagrams. This will enable the modernization of legacy systems and decrease the manual effort in software development workflows.

arxiv情報

著者 Averi Bates,Ryan Vavricka,Shane Carleton,Ruosi Shao,Chongle Pan
発行日 2025-05-15 16:29:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SE, D.2.2 | Unified Modeling Language Code Generation from Diagram Images Using Multimodal Large Language Models はコメントを受け付けていません

Fixing Incomplete Value Function Decomposition for Multi-Agent Reinforcement Learning

要約

協調的なマルチエージェント強化学習のための値関数分解方法個々のエージェントユーティリティからの共同値を構成し、共同目標を使用してそれらを訓練します。
個々のユーティリティと共同値間のアクション選択プロセスが一貫していることを確認するために、構成が個々のグロバルMax(IGM)プロパティを満たすことが不可欠です。
IGM自体を満足させることは簡単ですが、ほとんどの既存の方法(VDN、QMIXなど)は表現能力が限られており、IGM値の完全なクラスを表すことができず、そのような制限がない1つの例外(QPlex)は不必要に複雑です。
この作業では、IGM値の完全なクラスの単純な定式化を提示し、QFIXの導出に自然につながります。これは、薄い「固定」層によって以前のモデルの表現能力を拡張する価値関数分解モデルの新しいファミリーです。
QFIXの複数のバリエーションを導き出し、2つのよく知られたマルチエージェントフレームワークに3つのバリアントを実装します。
複数のSMACV2および過剰調理済み環境で経験的評価を実行します。これは、QFIX(i)が以前の方法のパフォーマンスを向上させることに成功し、(ii)メインの競合他社QPlexよりも安定してパフォーマンスを発揮することを確認し、(iii)これを達成しながら最もシンプルで最小の混合モデルを採用します。

要約(オリジナル)

Value function decomposition methods for cooperative multi-agent reinforcement learning compose joint values from individual per-agent utilities, and train them using a joint objective. To ensure that the action selection process between individual utilities and joint values remains consistent, it is imperative for the composition to satisfy the individual-global max (IGM) property. Although satisfying IGM itself is straightforward, most existing methods (e.g., VDN, QMIX) have limited representation capabilities and are unable to represent the full class of IGM values, and the one exception that has no such limitation (QPLEX) is unnecessarily complex. In this work, we present a simple formulation of the full class of IGM values that naturally leads to the derivation of QFIX, a novel family of value function decomposition models that expand the representation capabilities of prior models by means of a thin ‘fixing’ layer. We derive multiple variants of QFIX, and implement three variants in two well-known multi-agent frameworks. We perform an empirical evaluation on multiple SMACv2 and Overcooked environments, which confirms that QFIX (i) succeeds in enhancing the performance of prior methods, (ii) learns more stably and performs better than its main competitor QPLEX, and (iii) achieves this while employing the simplest and smallest mixing models.

arxiv情報

著者 Andrea Baisero,Rupali Bhati,Shuo Liu,Aathira Pillai,Christopher Amato
発行日 2025-05-15 16:36:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Fixing Incomplete Value Function Decomposition for Multi-Agent Reinforcement Learning はコメントを受け付けていません