Assessing Foundation Models for Sea Ice Type Segmentation in Sentinel-1 SAR Imagery

要約

海氷の種類の正確なセグメンテーションは、氷で覆われた水域での安全な航海と資源抽出、および極地気候プロセスを理解するための海氷条件のマッピングと運用予測に不可欠です。
深い学習方法は、海氷のセグメンテーションを自動化する際に有望であることを示していますが、多くの場合、専門知識を必要とし、作成するのに時間がかかる広範なラベル付きデータセットに依存しています。
最近、Foundation Models(FMS)は、自己監視技術を使用して大規模なデータセットでトレーニング前に使用することにより、リモートセンシング画像をセグメント化するための優れた結果を示しています。
ただし、特に海氷の複雑な構造、季節の変化、ユニークなスペクトル署名、および井戸の合成開口レーダー(SAR)画像特性を含む、バンディングやスカラッピングノイズを含む特異な合成開口レーダー(SAR)の画像特性を考慮して、海氷のセグメンテーションに対するそれらの有効性は未開拓のままです。
特に、極地のSAR画像は、FMSのトレーニングデータセットを形成する同じセンサーによって低緯度の画像をキャプチャするために使用されるものとは異なるモードを使用して取得されます。
この研究では、Sentinel-1 SAR画像を使用した海氷タイプのセグメンテーション用の10のリモートセンシングFMSを評価し、季節的および空間的一般化に焦点を当てています。
選択したモデルの中で、PRITHVI-600Mはベースラインモデルよりも優れていますが、CROMAはF1スコアで非常に類似したパフォーマンスを達成しています。
私たちの貢献には、海氷データ分析のためのFMSを選択するための体系的な方法論、カスタマイズされたパフォーマンスメトリックを備えた海氷セグメンテーションのFMSのパフォーマンスに関する包括的なベンチマーク研究、SARデータを使用した極地アプリケーションのドメイン固有のモデルを改善するための既存のギャップと将来の方向性に関する洞察が含まれます。

要約(オリジナル)

Accurate segmentation of sea ice types is essential for mapping and operational forecasting of sea ice conditions for safe navigation and resource extraction in ice-covered waters, as well as for understanding polar climate processes. While deep learning methods have shown promise in automating sea ice segmentation, they often rely on extensive labeled datasets which require expert knowledge and are time-consuming to create. Recently, foundation models (FMs) have shown excellent results for segmenting remote sensing images by utilizing pre-training on large datasets using self-supervised techniques. However, their effectiveness for sea ice segmentation remains unexplored, especially given sea ice’s complex structures, seasonal changes, and unique spectral signatures, as well as peculiar Synthetic Aperture Radar (SAR) imagery characteristics including banding and scalloping noise, and varying ice backscatter characteristics, which are often missing in standard remote sensing pre-training datasets. In particular, SAR images over polar regions are acquired using different modes than used to capture the images at lower latitudes by the same sensors that form training datasets for FMs. This study evaluates ten remote sensing FMs for sea ice type segmentation using Sentinel-1 SAR imagery, focusing on their seasonal and spatial generalization. Among the selected models, Prithvi-600M outperforms the baseline models, while CROMA achieves a very similar performance in F1-score. Our contributions include offering a systematic methodology for selecting FMs for sea ice data analysis, a comprehensive benchmarking study on performances of FMs for sea ice segmentation with tailored performance metrics, and insights into existing gaps and future directions for improving domain-specific models in polar applications using SAR data.

arxiv情報

著者 Samira Alkaee Taleghan,Morteza Karimzadeh,Andrew P. Barrett,Walter N. Meier,Farnoush Banaei-Kashani
発行日 2025-03-28 15:21:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Assessing Foundation Models for Sea Ice Type Segmentation in Sentinel-1 SAR Imagery はコメントを受け付けていません

MixFunn: A Neural Network for Differential Equations with Improved Generalization and Interpretability

要約

精度、解釈可能性、一般化能力の向上を伴う微分​​方程式を解くように設計された新しいニューラルネットワークアーキテクチャであるMixFunnを紹介します。
アーキテクチャは、2つの重要なコンポーネントで構成されています。複数のパラメーター化された非線形関数を統合して表現柔軟性を向上させる混合機能ニューロンと、入力の線形変換と入力変数の相互変換をキャプチャする2次ニューロンです。
これらの機能は、ネットワークの表現力を大幅に向上させ、従来のアプローチと比較して劇的に少ないパラメーターと最大4桁の縮小で同等または優れた結果を達成できるようにします。
物理学に基づいた設定でMixFunnを適用して、古典的なメカニック、量子力学、流体のダイナミクスの微分方程式を解き、標準的な機械学習モデルと比較してトレーニングドメイン以外の領域へのより高い精度を達成し、一般化を改善する上でその有効性を実証しました。
さらに、アーキテクチャは解釈可能な分析表現の抽出を促進し、基礎となるソリューションに対する貴重な洞察を提供します。

要約(オリジナル)

We introduce MixFunn, a novel neural network architecture designed to solve differential equations with enhanced precision, interpretability, and generalization capability. The architecture comprises two key components: the mixed-function neuron, which integrates multiple parameterized nonlinear functions to improve representational flexibility, and the second-order neuron, which combines a linear transformation of its inputs with a quadratic term to capture cross-combinations of input variables. These features significantly enhance the expressive power of the network, enabling it to achieve comparable or superior results with drastically fewer parameters and a reduction of up to four orders of magnitude compared to conventional approaches. We applied MixFunn in a physics-informed setting to solve differential equations in classical mechanics, quantum mechanics, and fluid dynamics, demonstrating its effectiveness in achieving higher accuracy and improved generalization to regions outside the training domain relative to standard machine learning models. Furthermore, the architecture facilitates the extraction of interpretable analytical expressions, offering valuable insights into the underlying solutions.

arxiv情報

著者 Tiago de Souza Farias,Gubio Gomes de Lima,Jonas Maziero,Celso Jorge Villas-Boas
発行日 2025-03-28 15:31:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.app-ph, physics.comp-ph | MixFunn: A Neural Network for Differential Equations with Improved Generalization and Interpretability はコメントを受け付けていません

Efficient Verified Machine Unlearning For Distillation

要約

GDPRやCCPAなどの規制によって駆動されるデータプライバシーの需要の増加には、特定のトレーニングポイントの影響を迅速に削除できるマシンの未学習方法が必要です。
SISAのような検証済みのアプローチは、データのスライスとチェックポイントを使用して、中間状態に戻ることにより、単一モデルの効率的な解除を達成しますが、これらの方法は教師と学生の知識蒸留設定で苦労しています。
教師の学習は、通常、蒸留中の情報伝播のために、コストのかかる完全な生徒の再訓練を強制します。
私たちの主な貢献は、パージ(アンサンブルの再訓練保証で分割された未学習)です。
蒸留プロセスを分割し、各教師の構成要素の影響を明確な学生データサブセットに限定する構成マッピングと、増分マルチ教師戦略を導入し、データの分離を決定的に維持します。
パージフレームワークは、オーバーヘッドの再試行を大幅に削減し、教師側の学習が発生したときに部分的な学生の更新のみを必要とします。
理論的分析の両方を提供し、未学習プロセスの大幅なスピードアップと複数のデータセットでの経験的検証を提供し、標準ベースラインに匹敵する学生の精度を維持しながら、パージがこれらの効率の向上を達成することを実証します。

要約(オリジナル)

Growing data privacy demands, driven by regulations like GDPR and CCPA, require machine unlearning methods capable of swiftly removing the influence of specific training points. Although verified approaches like SISA, using data slicing and checkpointing, achieve efficient unlearning for single models by reverting to intermediate states, these methods struggle in teacher-student knowledge distillation settings. Unlearning in the teacher typically forces costly, complete student retraining due to pervasive information propagation during distillation. Our primary contribution is PURGE (Partitioned Unlearning with Retraining Guarantee for Ensembles), a novel framework integrating verified unlearning with distillation. We introduce constituent mapping and an incremental multi-teacher strategy that partitions the distillation process, confines each teacher constituent’s impact to distinct student data subsets, and crucially maintains data isolation. The PURGE framework substantially reduces retraining overhead, requiring only partial student updates when teacher-side unlearning occurs. We provide both theoretical analysis, quantifying significant speed-ups in the unlearning process, and empirical validation on multiple datasets, demonstrating that PURGE achieves these efficiency gains while maintaining student accuracy comparable to standard baselines.

arxiv情報

著者 Yijun Quan,Zushu Li,Giovanni Montana
発行日 2025-03-28 15:38:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Efficient Verified Machine Unlearning For Distillation はコメントを受け付けていません

Metric Entropy-Free Sample Complexity Bounds for Sample Average Approximation in Convex Stochastic Programming

要約

このホワイトペーパーでは、凸状または強く凸確率的プログラミング(SP)の問題を解く際のサンプル平均近似(SAA)を研究します。
SAAのサンプル効率を推定する際に、最先端のサンプルの複雑さの境界には、問題の次元と多項式に多項式に成長することが多い、メトリックエントロピー項(実行可能な領域のカバー数の対数など)が含まれます。
メトリックエントロピーフリーの複雑さ速度は、均一なリプシッツ条件下で達成できることが示されていますが、そのような仮定は、多くの重要なSP問題設定にとって非常に重要です。
これに応じて、このペーパーでは、おそらく標準的なSP仮定の下でのSAAのメトリックエントロピーのないサンプルの複雑さの境界の最初のセットを提示します – 均一なリプシッツ条件がない場合。
多くの場合、新しい結果は、最先端よりも$ O(d)$ – 複雑さの改善につながります。
新しく確立された複雑さの境界から、重要な啓示は、SAAとCanonical Stochastic Mirror Descent(SMD)メソッド、SPへの2つの主流のソリューションアプローチであり、SAAの理論的矛盾を$ O(D)$のオーダーによっても持ち上げます。
さらに、このペーパーでは、SAAが証明可能な有効性を維持しているが、SMDの対応する結果はほとんど未調査のままである非リプシチアンシナリオを調査し、いくつかの不規則な設定におけるSAAの適用性の向上の可能性を示しています。
SAAの数値実験結果は、シミュレートされたSP問題を解決し、理論的な調査結果に合わせています。

要約(オリジナル)

This paper studies sample average approximation (SAA) in solving convex or strongly convex stochastic programming (SP) problems. In estimating SAA’s sample efficiency, the state-of-the-art sample complexity bounds entail metric entropy terms (such as the logarithm of the feasible region’s covering number), which often grow polynomially with problem dimensionality. While it has been shown that metric entropy-free complexity rates are attainable under a uniform Lipschitz condition, such an assumption can be overly critical for many important SP problem settings. In response, this paper presents perhaps the first set of metric entropy-free sample complexity bounds for the SAA under standard SP assumptions — in the absence of the uniform Lipschitz condition. The new results often lead to an $O(d)$-improvement in the complexity rate than the state-of-the-art. From the newly established complexity bounds, an important revelation is that SAA and the canonical stochastic mirror descent (SMD) method, two mainstream solution approaches to SP, entail almost identical rates of sample efficiency, lifting a theoretical discrepancy of SAA from SMD also by the order of $O(d)$. Furthermore, this paper explores non-Lipschitzian scenarios where SAA maintains provable efficacy but the corresponding results for SMD remain mostly unexplored, indicating the potential of SAA’s better applicability in some irregular settings. Our numerical experiment results on SAA for solving a simulated SP problem align with our theoretical findings.

arxiv情報

著者 Hongcheng Liu,Jindong Tong
発行日 2025-03-28 15:39:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 60-08, 90C15, 90C25, cs.LG, math.OC, math.PR, math.ST, stat.TH | Metric Entropy-Free Sample Complexity Bounds for Sample Average Approximation in Convex Stochastic Programming はコメントを受け付けていません

Spectral-factorized Positive-definite Curvature Learning for NN Training

要約

Adam(W)やShampooなどの多くのトレーニング方法は、肯定的な決定的な曲率マトリックスを学び、前処理前に逆根を適用します。
最近、シャンプーなどの非角質訓練方法は大きな注目を集めています。
ただし、それらは計算的に非効率的なままであり、マトリックス分解による費用のかかるマトリックスルート計算により、特定のタイプの曲率情報に限定されています。
これに対処するために、任意のマトリックス根と一般的な曲率学習の効率的な適用を可能にするために、スペクトル因子分解陽性定義の曲率推定を動的に適応させるリーマニアの最適化アプローチを提案します。
肯定的なマトリックス最適化と勾配のない最適化のための共分散適応におけるアプローチの有効性と汎用性、ならびに神経ネットトレーニングのための曲率学習の効率性を示します。

要約(オリジナル)

Many training methods, such as Adam(W) and Shampoo, learn a positive-definite curvature matrix and apply an inverse root before preconditioning. Recently, non-diagonal training methods, such as Shampoo, have gained significant attention; however, they remain computationally inefficient and are limited to specific types of curvature information due to the costly matrix root computation via matrix decomposition. To address this, we propose a Riemannian optimization approach that dynamically adapts spectral-factorized positive-definite curvature estimates, enabling the efficient application of arbitrary matrix roots and generic curvature learning. We demonstrate the efficacy and versatility of our approach in positive-definite matrix optimization and covariance adaptation for gradient-free optimization, as well as its efficiency in curvature learning for neural net training.

arxiv情報

著者 Wu Lin,Felix Dangel,Runa Eschenhagen,Juhan Bae,Richard E. Turner,Roger B. Grosse
発行日 2025-03-28 15:49:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Spectral-factorized Positive-definite Curvature Learning for NN Training はコメントを受け付けていません

Benchmarking Ultra-Low-Power $μ$NPUs

要約

効率的なオンデバイスニューラルネットワーク(NN)推論には、予測可能な遅延、プライバシーの強化、信頼性の向上、ベンダーの運用コストの削減など、クラウドベースの処理よりもさまざまな利点があります。
これにより、超低電力アプリケーション専用に設計されたニューラル加工ユニット($ \ mu $ npus)と呼ばれることが多いマイクロコントローラースケールNNアクセラレータの最近の急速な発展が引き起こされました。
このペーパーでは、これらのいくつかのプラットフォームの最初の独立したベンチマークと同様に、多くの商業的に利用可能な$ \ mu $ npusの最初の比較評価を紹介します。
モデルコンパイルフレームワークを開発およびオープンソースして、多様な$ \ MU $ NPUハードウェア全体で量子化されたモデルの一貫したベンチマークを有効にします。
ベンチマークは、エンドツーエンドのパフォーマンスをターゲットにし、他の要因とともに、モデル推論の遅延、消費電力、およびメモリオーバーヘッドが含まれています。
結果として得られる分析は、予想されるパフォーマンスの傾向と、ハードウェア仕様と実際のパフォーマンスの間の驚くべき格差の両方を明らかにします。これには、モデルの複雑さが増加する予期しないスケーリング動作を示す$ \ mu $ npusが含まれます。
私たちのフレームワークは、この急速に進化する空間のハードウェアデザイナーとソフトウェア開発者の両方にとって貴重な洞察とともに、$ \ mu $ npuプラットフォームをさらに評価するための基盤を提供します。

要約(オリジナル)

Efficient on-device neural network (NN) inference has various advantages over cloud-based processing, including predictable latency, enhanced privacy, greater reliability, and reduced operating costs for vendors. This has sparked the recent rapid development of microcontroller-scale NN accelerators, often referred to as neural processing units ($\mu$NPUs), designed specifically for ultra-low-power applications. In this paper we present the first comparative evaluation of a number of commercially-available $\mu$NPUs, as well as the first independent benchmarks for several of these platforms. We develop and open-source a model compilation framework to enable consistent benchmarking of quantized models across diverse $\mu$NPU hardware. Our benchmark targets end-to-end performance and includes model inference latency, power consumption, and memory overhead, alongside other factors. The resulting analysis uncovers both expected performance trends as well as surprising disparities between hardware specifications and actual performance, including $\mu$NPUs exhibiting unexpected scaling behaviors with increasing model complexity. Our framework provides a foundation for further evaluation of $\mu$NPU platforms alongside valuable insights for both hardware designers and software developers in this rapidly evolving space.

arxiv情報

著者 Josh Millar,Yushan Huang,Sarab Sethi,Hamed Haddadi,Anil Madhavapeddy
発行日 2025-03-28 16:14:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AR, cs.LG | Benchmarking Ultra-Low-Power $μ$NPUs はコメントを受け付けていません

Comparing Methods for Bias Mitigation in Graph Neural Networks

要約

このペーパーでは、生成人工知能(GenAI)システムのデータ準備におけるグラフニューラルネットワーク(GNNS)の重要な役割を検証し、特にバイアスのアドレス指定と緩和に焦点を当てています。
バイアス緩和のための3つの異なる方法の比較分析を提示します:データスパース化、特徴の変更、および合成データ増強。
ドイツの信用データセットを使用した実験分析を通じて、統計的パリティ、機会の平等、誤った肯定レートなど、複数の公平性メトリックを使用してこれらのアプローチを評価します。
私たちの研究は、すべての方法が元のデータセットと比較して公平性メトリックを改善する一方で、グラフセージを使用した層別サンプリングと合成データ増強は、モデルのパフォーマンスを維持しながら人口統計表現のバランスをとるのに特に効果的であることが証明されることを示しています。
この結果は、モデルのパフォーマンスを維持しながら、より公平なAIシステムを開発するための実用的な洞察を提供します。

要約(オリジナル)

This paper examines the critical role of Graph Neural Networks (GNNs) in data preparation for generative artificial intelligence (GenAI) systems, with a particular focus on addressing and mitigating biases. We present a comparative analysis of three distinct methods for bias mitigation: data sparsification, feature modification, and synthetic data augmentation. Through experimental analysis using the german credit dataset, we evaluate these approaches using multiple fairness metrics, including statistical parity, equality of opportunity, and false positive rates. Our research demonstrates that while all methods improve fairness metrics compared to the original dataset, stratified sampling and synthetic data augmentation using GraphSAGE prove particularly effective in balancing demographic representation while maintaining model performance. The results provide practical insights for developing more equitable AI systems while maintaining model performance.

arxiv情報

著者 Barbara Hoffmann,Ruben Mayer
発行日 2025-03-28 16:18:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Comparing Methods for Bias Mitigation in Graph Neural Networks はコメントを受け付けていません

Borsuk-Ulam and Replicable Learning of Large-Margin Halfspaces

要約

学習理論における最近の顕著な進歩により、総概念クラスについては、複製可能性、グローバルな安定性、差別的にプライベートな(DP)学習性、共有ランダム性の複製可能性がすべてリトルストーンディメンションの有限性と一致することが確立されています。
この等価性は部分的な概念クラスにまで及びますか?
リストの複製可能性数は、$ d $ -dimensional $ \ gamma $ -marginの半スペースの複製数が\ [\ frac {d} {2} +1 \ le \ mathrm {lr}(h^d_ \ gamma)\ le d、\]寸法の栽培を満たしていることを証明することにより、この質問に答えます。
したがって、部分的なクラスの場合、リストの複製可能性とグローバルな安定性は、境界のあるリトルストーンの寸法、純粋なDP-Learnability、または共有ランダム性の複製可能性から必ずしも続くわけではありません。
私たちの主要な定理を適用すると、いくつかの未解決の問題を解決します:$ \ bullet $は、総概念クラスへの無限の次元の大規模な半分スペースのすべての分解に、アロン、ハンネケ、ホルツマン、モラン(Focs ’21)の未解決の問題に答えていません。
$ \ bullet $ $ d $ dimensional euclideanスペースの有限のポイントセットと均一な半分スペースの最大リストの数字の数は、$ d $であり、追跡、モラン、Yehudayoff(Focs ’23)の問題を解決します。
$ \ bullet $大規模なギャップ体制のギャップハミング距離問題のあらゆる分解には、公開されていないパブリックコインランダム化通信の複雑さがあります。
これは、牙、g \ ‘o \’ os、harms、and hatami(Stoc ’25)の未解決の質問に答えます。
私たちの下限は、Chase、Chornomaz、Moran、およびYehudayoff(Stoc ’24)の地元のBorsuk-Ulamの定理に基づいたトポロジカル議論から続きます。
上限については、SVMSの一般化プロパティを使用して、リスト繰り返し可能な学習ルールを構築します。

要約(オリジナル)

Recent remarkable advances in learning theory have established that, for total concept classes, list replicability, global stability, differentially private (DP) learnability, and shared-randomness replicability all coincide with the finiteness of Littlestone dimension. Does this equivalence extend to partial concept classes? We answer this question by proving that the list replicability number of $d$-dimensional $\gamma$-margin half-spaces satisfies \[ \frac{d}{2}+1 \le \mathrm{LR}(H^d_\gamma) \le d, \] which grows with dimension. Consequently, for partial classes, list replicability and global stability do not necessarily follow from bounded Littlestone dimension, pure DP-learnability, or shared-randomness replicability. Applying our main theorem, we resolve several open problems: $\bullet$ Every disambiguation of infinite-dimensional large-margin half-spaces to a total concept class has unbounded Littlestone dimension, answering an open question of Alon, Hanneke, Holzman, and Moran (FOCS ’21). $\bullet$ The maximum list-replicability number of any finite set of points and homogeneous half-spaces in $d$-dimensional Euclidean space is $d$, resolving a problem of Chase, Moran, and Yehudayoff (FOCS ’23). $\bullet$ Every disambiguation of the Gap Hamming Distance problem in the large gap regime has unbounded public-coin randomized communication complexity. This answers an open question of Fang, G\’o\’os, Harms, and Hatami (STOC ’25). Our lower bound follows from a topological argument based on the local Borsuk-Ulam theorem of Chase, Chornomaz, Moran, and Yehudayoff (STOC ’24). For the upper bound, we construct a list-replicable learning rule using the generalization properties of SVMs.

arxiv情報

著者 Ari Blondal,Hamed Hatami,Pooya Hatami,Chavdar Lalov,Sivan Tretiak
発行日 2025-03-28 16:21:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Borsuk-Ulam and Replicable Learning of Large-Margin Halfspaces はコメントを受け付けていません

Neural Network Approach to Stochastic Dynamics for Smooth Multimodal Density Estimation

要約

このホワイトペーパーでは、高次元のターゲット密度からサンプルを描画するときに既存のモンテカルロアルゴリズムの問​​題を解決するために、ランジュバン拡散ダイナミクスに基づく新しい確率サンプリング方法を検討します。
我々は、プリコンションマトリックスの確率性をランダムマトリックスとしてモデル化することにより、メトロポリスを調整したランジュビン拡散アルゴリズムを範囲しました。
他の提案方法と比較した利点は、対数ポストの勾配のみが必要であることです。
提案された方法は、統計モデルの局所構造のジオメトリを利用するために提案密度を調整するための完全な適応メカニズムを提供します。
平面内の遊離粒子の量子確率密度関数をモデル化することにより、新しい提案の利点を明確にします(エネルギー固有関数)。
提案されたモデルは、標準のMCMCメソッドよりもパフォーマンスの精度と計算時間の観点から顕著な改善を表しています。

要約(オリジナル)

In this paper we consider a new probability sampling methods based on Langevin diffusion dynamics to resolve the problem of existing Monte Carlo algorithms when draw samples from high dimensional target densities. We extent Metropolis-Adjusted Langevin Diffusion algorithm by modelling the stochasticity of precondition matrix as a random matrix. An advantage compared to other proposal method is that it only requires the gradient of log-posterior. The proposed method provides fully adaptation mechanisms to tune proposal densities to exploits and adapts the geometry of local structures of statistical models. We clarify the benefits of the new proposal by modelling a Quantum Probability Density Functions of a free particle in a plane (energy Eigen-functions). The proposed model represents a remarkable improvement in terms of performance accuracy and computational time over standard MCMC method.

arxiv情報

著者 Z. Zarezadeh,N. Zarezadeh
発行日 2025-03-28 16:22:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NA, math.NA, stat.ML | Neural Network Approach to Stochastic Dynamics for Smooth Multimodal Density Estimation はコメントを受け付けていません

MCI-GRU: Stock Prediction Model Based on Multi-Head Cross-Attention and Improved GRU

要約

金融市場がビッグデータの時代でますます複雑になるにつれて、正確な在庫予測がより重要になりました。
Grusなどの従来の時系列モデルは広く使用されていますが、特に主要な履歴情報の柔軟な選択と効果的な利用において、市場の複雑な非線形ダイナミクスを捉えるのに苦労しています。
最近、グラフニューラルネットワークや補強学習などの方法では、在庫予測に有望であるが、高いデータの品質と量が必要であり、データのスパースとノイズを扱うときに不安定性を示す傾向があります。
さらに、これらのモデルのトレーニングおよび推論プロセスは通常、複雑で計算高価であり、実際のアプリケーションでの幅広い展開を制限しています。
既存のアプローチは、一般に、市場の感情と期待、微細構造要因、参加者の行動パターンなど、観察不能な潜在的な市場状態を効果的に捉えるのに苦労しており、市場のダイナミクスの不十分な理解とその後、予測の精度に影響を与えます。
これらの課題に対処するために、このホワイトペーパーでは、マルチヘッド交差アテナンスメカニズムと改善されたGRUに基づいて、在庫予測モデルであるMCI-Gruを提案しています。
まず、リセットゲートを注意メカニズムに置き換えることにより、GRUモデルを強化し、それにより、履歴情報の選択と利用におけるモデルの柔軟性を高めます。
第二に、私たちは観察できない潜在的な潜在的な市場状態表現を学習するための多目的クロスアテナンスメカニズムを設計します。これは、時間的特徴と横断的特徴の両方との相互作用を通じてさらに豊かになります。
最後に、4つの主要な株式市場での広範な実験は、提案された方法が複数のメトリックにわたってSOTA技術よりも優れていることを示しています。
さらに、現実世界のファンド管理業務での適用が成功すると、その有効性と実用性が確認されます。

要約(オリジナル)

As financial markets grow increasingly complex in the big data era, accurate stock prediction has become more critical. Traditional time series models, such as GRUs, have been widely used but often struggle to capture the intricate nonlinear dynamics of markets, particularly in the flexible selection and effective utilization of key historical information. Recently, methods like Graph Neural Networks and Reinforcement Learning have shown promise in stock prediction but require high data quality and quantity, and they tend to exhibit instability when dealing with data sparsity and noise. Moreover, the training and inference processes for these models are typically complex and computationally expensive, limiting their broad deployment in practical applications. Existing approaches also generally struggle to capture unobservable latent market states effectively, such as market sentiment and expectations, microstructural factors, and participant behavior patterns, leading to an inadequate understanding of market dynamics and subsequently impact prediction accuracy. To address these challenges, this paper proposes a stock prediction model, MCI-GRU, based on a multi-head cross-attention mechanism and an improved GRU. First, we enhance the GRU model by replacing the reset gate with an attention mechanism, thereby increasing the model’s flexibility in selecting and utilizing historical information. Second, we design a multi-head cross-attention mechanism for learning unobservable latent market state representations, which are further enriched through interactions with both temporal features and cross-sectional features. Finally, extensive experiments on four main stock markets show that the proposed method outperforms SOTA techniques across multiple metrics. Additionally, its successful application in real-world fund management operations confirms its effectiveness and practicality.

arxiv情報

著者 Peng Zhu,Yuante Li,Yifan Hu,Sheng Xiang,Qinyuan Liu,Dawei Cheng,Yuqi Liang
発行日 2025-03-28 16:40:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-fin.CP, q-fin.ST | MCI-GRU: Stock Prediction Model Based on Multi-Head Cross-Attention and Improved GRU はコメントを受け付けていません