TerraTorch: The Geospatial Foundation Models Toolkit

要約

Terratorchは、Pytorch Lightning上に構築され、衛星、天候、気候データに合わせて調整された地理空間基盤モデル向けの微調整およびベンチマークキットです。
ドメイン固有のデータモジュール、事前に定義されたタスク、およびバックボーンを多様なデコーダーヘッドと組み合わせたモジュラーモデルファクトリーを統合します。
これらのコンポーネントにより、研究者と実践者は、トレーニング構成を編集するだけで、サポートされていないモデルを微調整できません。
モデル開発のためのベストプラクティスを統合し、自動化されたハイパーパラメーターの最適化拡張繰り返しを組み込むことにより、Terratorchは、新しい地球観測の使用ケースのモデルを微調整またはベンチマークするのに必要な専門知識と時間を短縮します。
さらに、Terratorchはジオベンチと直接統合し、地理空間基礎モデルの体系的で再現可能なベンチマークを可能にします。
TerratorChは、https://github.com/ibm/terratorchで入手可能、Apache 2.0の下で開いており、PIP Install Terratorchを介してインストールできます。

要約(オリジナル)

TerraTorch is a fine-tuning and benchmarking toolkit for Geospatial Foundation Models built on PyTorch Lightning and tailored for satellite, weather, and climate data. It integrates domain-specific data modules, pre-defined tasks, and a modular model factory that pairs any backbone with diverse decoder heads. These components allow researchers and practitioners to fine-tune supported models in a no-code fashion by simply editing a training configuration. By consolidating best practices for model development and incorporating the automated hyperparameter optimization extension Iterate, TerraTorch reduces the expertise and time required to fine-tune or benchmark models on new Earth Observation use cases. Furthermore, TerraTorch directly integrates with GEO-Bench, allowing for systematic and reproducible benchmarking of Geospatial Foundation Models. TerraTorch is open sourced under Apache 2.0, available at https://github.com/IBM/terratorch, and can be installed via pip install terratorch.

arxiv情報

著者 Carlos Gomes,Benedikt Blumenstiel,Joao Lucas de Sousa Almeida,Pedro Henrique de Oliveira,Paolo Fraccaro,Francesc Marti Escofet,Daniela Szwarcman,Naomi Simumba,Romeo Kienzler,Bianca Zadrozny
発行日 2025-03-26 13:59:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | TerraTorch: The Geospatial Foundation Models Toolkit はコメントを受け付けていません

Feature Statistics with Uncertainty Help Adversarial Robustness

要約

深いニューラルネットワーク(DNNS)の顕著な成功にもかかわらず、敵対的な攻撃のセキュリティの脅威は、DNNの信頼性に大きな課題をもたらします。
DNNSのさまざまな部分にランダム性を導入することにより、確率的方法により、モデルが不確実性を学ぶことができ、それによりモデルの堅牢性が効率的に改善されます。
この論文では、敵対的な攻撃が機能統計の分布をシフトするという普遍的な現象を理論的に発見します。
この理論的な発見に動機付けられて、不確実性(FSU)の特徴統計と呼ばれる堅牢性強化モジュールを提案します。
チャネルごとの特徴と、多変量ガウス分布からの例の標準偏差と標準的な偏差を改善します。これは、攻撃された例を再構築し、シフトされた分布を調整するのに役立ちます。
このキャリブレーションは、分類のためにデータのドメイン特性をいくつか回復し、それにより、摂動の影響を軽減し、モデルを欺く攻撃の能力を弱めることになります。
提案されたFSUモジュールは、トレーニング、攻撃、予測、微調整に普遍的な適用性を備えており、些細な追加時間コストで印象的な堅牢性の強化能力を示しています。
たとえば、強力な最適化ベースのCW攻撃に対して、FSUを攻撃と予測フェーズに組み込むことにより、CIFAR10、CIFAR100、およびSVHNで50%〜80%の堅牢な精度で多くの崩壊した最先端モデルを授与します。

要約(オリジナル)

Despite the remarkable success of deep neural networks (DNNs), the security threat of adversarial attacks poses a significant challenge to the reliability of DNNs. By introducing randomness into different parts of DNNs, stochastic methods can enable the model to learn some uncertainty, thereby improving model robustness efficiently. In this paper, we theoretically discover a universal phenomenon that adversarial attacks will shift the distributions of feature statistics. Motivated by this theoretical finding, we propose a robustness enhancement module called Feature Statistics with Uncertainty (FSU). It resamples channel-wise feature means and standard deviations of examples from multivariate Gaussian distributions, which helps to reconstruct the attacked examples and calibrate the shifted distributions. The calibration recovers some domain characteristics of the data for classification, thereby mitigating the influence of perturbations and weakening the ability of attacks to deceive models. The proposed FSU module has universal applicability in training, attacking, predicting and fine-tuning, demonstrating impressive robustness enhancement ability at trivial additional time cost. For example, against powerful optimization-based CW attacks, by incorporating FSU into attacking and predicting phases, it endows many collapsed state-of-the-art models with 50%-80% robust accuracy on CIFAR10, CIFAR100 and SVHN.

arxiv情報

著者 Ran Wang,Xinlei Zhou,Rihao Li,Meng Hu,Wenhui Wu,Yuheng Jia
発行日 2025-03-26 14:30:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Feature Statistics with Uncertainty Help Adversarial Robustness はコメントを受け付けていません

ProFed: a Benchmark for Proximity-based non-IID Federated Learning

要約

近年、CRO:Flfederated Learning(FL)は、機械学習コミュニティ内で大きな注目を集めています。
文献ではさまざまなFLアルゴリズムが提案されていますが、クライアント全体のデータが非依存的で同一に分布している場合(非IID)、そのパフォーマンスはしばしば低下します。
データ分布のこの歪度は、多くの場合、地理的パターンから生まれ、テキストデータの地域的な言語的変動や都市環境のローカライズされた交通パターンなどの顕著な例があります。
このようなシナリオは、特定の領域内でIIDデータをもたらしますが、地域全体で非IIDデータになります。
ただし、既存のFLアルゴリズムは、通常、デバイス間で非IIDデータをランダムに分割することによって評価され、空間分布を無視することによって評価されます。
このギャップに対処するために、さまざまな地域でさまざまな程度の歪度でデータ分割をシミュレートするベンチマークであるProfedを紹介します。
文献からいくつかの歪度方法を組み込み、Mnist、FashionMnist、CIFAR-10、CIFAR-100などのよく知られたデータセットに適用します。
私たちの目標は、FLアルゴリズムをより効果的かつ一貫して確立されたベースラインに対して評価するための標準化されたフレームワークを研究者に提供することです。

要約(オリジナル)

In recent years, cro:flFederated learning (FL) has gained significant attention within the machine learning community. Although various FL algorithms have been proposed in the literature, their performance often degrades when data across clients is non-independently and identically distributed (non-IID). This skewness in data distribution often emerges from geographic patterns, with notable examples including regional linguistic variations in text data or localized traffic patterns in urban environments. Such scenarios result in IID data within specific regions but non-IID data across regions. However, existing FL algorithms are typically evaluated by randomly splitting non-IID data across devices, disregarding their spatial distribution. To address this gap, we introduce ProFed, a benchmark that simulates data splits with varying degrees of skewness across different regions. We incorporate several skewness methods from the literature and apply them to well-known datasets, including MNIST, FashionMNIST, CIFAR-10, and CIFAR-100. Our goal is to provide researchers with a standardized framework to evaluate FL algorithms more effectively and consistently against established baselines.

arxiv情報

著者 Davide Domini,Gianluca Aguzzi,Mirko Viroli
発行日 2025-03-26 15:08:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | ProFed: a Benchmark for Proximity-based non-IID Federated Learning はコメントを受け付けていません

Enhancing Multi-modal Models with Heterogeneous MoE Adapters for Fine-tuning

要約

マルチモーダルモデルは、クロスモーダルタスクに優れていますが、数十億のパラメーターのために計算的に高価です。
パラメーター効率の高い微調整(PEFT)は、事前に訓練されたパラメーターを凍結しながら小さなトレーニング可能なコンポーネントを追加することにより、ソリューションを提供します。
ただし、既存の方法は主にユニモーダル処理に焦点を当て、マルチモーダルタスクに必要な重要なモーダル融合を見落としています。
このギャップを埋めるために、従来のPEFTフレームワークを拡張してマルチモーダルの専門家の組み合わせをサポートし、情報相互作用を改善する専門家アダプターの不均一な混合物を提案します。
さらに、私たちのアプローチは、アフィン線形エキスパート設計を変更して、低ランク空間で効率的なモーダル融合を可能にし、微調整されたパラメーターの5〜8%のみで競争力のあるパフォーマンスを達成します。
Visual-AudioやText-Visualを含む8つのダウンストリームタスクにわたる実験は、アプローチの優れたパフォーマンスを示しています。

要約(オリジナル)

Multi-modal models excel in cross-modal tasks but are computationally expensive due to their billions of parameters. Parameter-efficient fine-tuning (PEFT) offers a solution by adding small trainable components while freezing pre-trained parameters. However, existing methods primarily focus on uni-modal processing, overlooking the critical modal fusion needed for multi-modal tasks. To fill this gap, we propose heterogeneous mixture of experts adapters that extend the traditional PEFT framework to support multi-modal expert combinations and improve information interaction. Additionally, our approach modifies the affine linear expert design to enable efficient modal fusion in a low-rank space, achieving competitive performance with only 5-8\% of the parameters fine-tuned. Experiments across eight downstream tasks, including visual-audio and text-visual, demonstrate the superior performance of the approach.

arxiv情報

著者 Sashuai Zhou,Hai Huang,Yan Xia
発行日 2025-03-26 15:26:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Enhancing Multi-modal Models with Heterogeneous MoE Adapters for Fine-tuning はコメントを受け付けていません

DR-PETS: Learning-Based Control With Planning in Adversarial Environments

要約

信頼性の高い現実世界の意思決定には、認識的、おそらく敵対的な摂動に対する堅牢性を確保することが不可欠です。
軌跡サンプリング(PET)アルゴリズムを備えた確率的アンサンブルは、アンサンブルベースの確率モデルを介して本質的に不確実性を処理しますが、構造化された敵対的または最悪の不確実性分布に対する保証がありません。
これに対処するために、敵対的な摂動に対する堅牢性を証明するペットの分布的に堅牢な拡張であるdr-petsを提案します。
P-Wasserstein Ambiguityセットを介して不確実性を正式にし、最悪の最適化フレームワークを通じて最悪のケースを認識する計画を可能にします。
ペットは確率的に確率を占めていますが、DRペットは、ペット計画ループに統合された扱いやすい凸近似を介して堅牢性を積極的に最適化します。
振り子の安定化とカートポールバランスの実験は、DR-PETが敵対的なパラメーター摂動に対する堅牢性を証明し、ペットが悪化する最悪のシナリオで一貫したパフォーマンスを達成することを示しています。

要約(オリジナル)

Ensuring robustness against epistemic, possibly adversarial, perturbations is essential for reliable real-world decision-making. While the Probabilistic Ensembles with Trajectory Sampling (PETS) algorithm inherently handles uncertainty via ensemble-based probabilistic models, it lacks guarantees against structured adversarial or worst-case uncertainty distributions. To address this, we propose DR-PETS, a distributionally robust extension of PETS that certifies robustness against adversarial perturbations. We formalize uncertainty via a p-Wasserstein ambiguity set, enabling worst-case-aware planning through a min-max optimization framework. While PETS passively accounts for stochasticity, DR-PETS actively optimizes robustness via a tractable convex approximation integrated into PETS planning loop. Experiments on pendulum stabilization and cart-pole balancing show that DR-PETS certifies robustness against adversarial parameter perturbations, achieving consistent performance in worst-case scenarios where PETS deteriorates.

arxiv情報

著者 Hozefa Jesawada,Antonio Acernese,Giovanni Russo,Carmen Del Vecchiob
発行日 2025-03-26 15:55:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC | DR-PETS: Learning-Based Control With Planning in Adversarial Environments はコメントを受け付けていません

A General Framework for Interpretable Neural Learning based on Local Information-Theoretic Goal Functions

要約

生物学的および人工ネットワークの印象的なパフォーマンスにもかかわらず、彼らのローカル学習ダイナミクスがネットワークレベルのタスクソリューションにどのように貢献するかについての直感的な理解は、この日付の課題です。
学習をよりローカルな規模に導くための努力は、実際に貴重な洞察につながりますが、多様なタスクにわたって解釈可能で適応性のある地元の学習目標を説明するための一般的な建設的なアプローチはまだ欠落しています。
以前は、コンパートメント構造を持つモデルニューロンにとって非常に適応性が高く解釈可能なローカル情報処理目標を策定しました。
部分的な情報分解(PID)の最近の進歩に基づいて、ここでは、「インフォマフィック」ニューラルネットワークを導入できる対応するパラメトリックローカル学習ルールを導き出します。
これらのネットワークの汎用性を実証して、監視された、監視されていない、メモリ学習からのタスクを実行します。
PIDフレームワークの解釈可能な性質を活用することにより、インフォマフィックネットワークは、地元の学習の複雑な構造の理解を促進するための貴重なツールを表しています。

要約(オリジナル)

Despite the impressive performance of biological and artificial networks, an intuitive understanding of how their local learning dynamics contribute to network-level task solutions remains a challenge to this date. Efforts to bring learning to a more local scale indeed lead to valuable insights, however, a general constructive approach to describe local learning goals that is both interpretable and adaptable across diverse tasks is still missing. We have previously formulated a local information processing goal that is highly adaptable and interpretable for a model neuron with compartmental structure. Building on recent advances in Partial Information Decomposition (PID), we here derive a corresponding parametric local learning rule, which allows us to introduce ‘infomorphic’ neural networks. We demonstrate the versatility of these networks to perform tasks from supervised, unsupervised and memory learning. By leveraging the interpretable nature of the PID framework, infomorphic networks represent a valuable tool to advance our understanding of the intricate structure of local learning.

arxiv情報

著者 Abdullah Makkeh,Marcel Graetz,Andreas C. Schneider,David A. Ehrlich,Viola Priesemann,Michael Wibral
発行日 2025-03-26 16:12:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, cs.NE, math.IT | A General Framework for Interpretable Neural Learning based on Local Information-Theoretic Goal Functions はコメントを受け付けていません

Asset price movement prediction using empirical mode decomposition and Gaussian mixture models

要約

ガウス混合モデル(GMM)、機能エンジニアリング、機械学習アルゴリズムと組み合わせた経験的モード分解(EMD)の使用を調査し、取引決定を最適化しました。
GameStop、Tesla、およびXRP(Ripple)市場に、それぞれ1時間ごとのキャンドルデータの5年、2年、および1年のサンプルを使用しました。
各市場に15時間のローリングウィンドウを適用して、線形モデルやその他の古典的な機能に基づいていくつかの機能を収集して、次の1時間の動きを予測しました。
その後、GMMフィルタリングアプローチを使用して、これらの市場のクラスターを特定しました。
各クラスターについて、EMDアルゴリズムを適用して、収集された各機能から高、中、低、トレンドコンポーネントを抽出しました。
各市場の密接な価格の変化率に基づいて、市場の動きを分類するために、単純なしきい値アルゴリズムが適用されました。
次に、市場の動きを分類する際に、ランダムフォレスト(RF)やXGBoostを含むさまざまな機械学習モデルのパフォーマンスを評価しました。
取引決定の素朴なランダム選択がベンチマークとして使用され、各結果の等しい確率を想定し、データセットの40%、30%、および20%のモデルをテストするために時間的交差検証アプローチを使用しました。
我々の結果は、EMDを使用して選択された機能を変換することで、特に累積利益によって測定されるように、ランダムフォレストやXGBoostなどのアンサンブル学習アルゴリズムの場合、パフォーマンスが向上することを示しています。
最後に、GMMフィルタリングは、ランダムベースラインの上位パーセンタイルよりも優れた学習アルゴリズムとデータソースの組み合わせの範囲を拡張しました。

要約(オリジナル)

We investigated the use of Empirical Mode Decomposition (EMD) combined with Gaussian Mixture Models (GMM), feature engineering and machine learning algorithms to optimize trading decisions. We used five, two, and one year samples of hourly candle data for GameStop, Tesla, and XRP (Ripple) markets respectively. Applying a 15 hour rolling window for each market, we collected several features based on a linear model and other classical features to predict the next hour’s movement. Subsequently, a GMM filtering approach was used to identify clusters among these markets. For each cluster, we applied the EMD algorithm to extract high, medium, low and trend components from each feature collected. A simple thresholding algorithm was applied to classify market movements based on the percentage change in each market’s close price. We then evaluated the performance of various machine learning models, including Random Forests (RF) and XGBoost, in classifying market movements. A naive random selection of trading decisions was used as a benchmark, which assumed equal probabilities for each outcome, and a temporal cross-validation approach was used to test models on 40%, 30%, and 20% of the dataset. Our results indicate that transforming selected features using EMD improves performance, particularly for ensemble learning algorithms like Random Forest and XGBoost, as measured by accumulated profit. Finally, GMM filtering expanded the range of learning algorithm and data source combinations that outperformed the top percentile of the random baseline.

arxiv情報

著者 Gabriel R. Palma,Mariusz Skoczeń,Phil Maguire
発行日 2025-03-26 16:12:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME | Asset price movement prediction using empirical mode decomposition and Gaussian mixture models はコメントを受け付けていません

A Low-complexity Structured Neural Network Approach to Intelligently Realize Wideband Multi-beam Beamformers

要約

True-Time-Delay(TTD)ビームフォーマーは、周波数依存のFFTビームとは異なり、アナログドメインとデジタル信号ドメインの両方で、斜めの斜視のないビームを生成できます。
私たちの以前の研究は、TTDビームフォーマーが遅延vandermondeマトリックス(DVM)の要素を使用して効率的に実現できることを示し、長年にわたるビームスイント問題に答えることができました。
したがって、DVMに基づいた古典的なアルゴリズムの作業に基づいて、構造装置の重量マトリックスとサブマトリックを使用して、広帯域マルチビームビームフォーバーを実現するためにニューラルネットワーク(NN)アーキテクチャを提案します。
重量マトリックスと亜種の構造とスパースは、NNの空間と計算の複雑さを大幅に減らすことが示されています。
提案されているネットワークアーキテクチャには、O(M2L)の複雑さを備えた従来の完全に接続されたLレイヤーネットワークと比較してO(PLM Logm)の複雑さがあります。ここで、Mはネットワークの各レイヤーのノード数、Pはレイヤーあたりのサブマトリック数、およびM >> pです。
24 GHzから32 GHzの範囲に数値シミュレーションを示し、提案されたニューラルアーキテクチャを使用してワイドバンドマルチビームビームフォーマーを実現する数値の実現可能性を実証します。
また、提案されたNNの複雑さの減少を示し、それを完全に接続されたNNSと比較して、提案されたアーキテクチャの効率を正確に犠牲にすることなく示します。
提案されたNNアーキテクチャの精度は、平均2乗誤差を使用して示されました。これは、重みマトリックスの目的関数とアンテナアレイのビーム形成信号に基づいており、ノードを正規化します。
提案されているNNアーキテクチャは、低複雑さのインテリジェントシステムのためにリアルタイムで、低複数のnnの実現ワイドバンドマルチビームビームフォーマーがリアルタイムで実現することを示しています。

要約(オリジナル)

True-time-delay (TTD) beamformers can produce wideband, squint-free beams in both analog and digital signal domains, unlike frequency-dependent FFT beams. Our previous work showed that TTD beamformers can be efficiently realized using the elements of delay Vandermonde matrix (DVM), answering the longstanding beam-squint problem. Thus, building on our work on classical algorithms based on DVM, we propose neural network (NN) architecture to realize wideband multi-beam beamformers using structure-imposed weight matrices and submatrices. The structure and sparsity of the weight matrices and submatrices are shown to reduce the space and computational complexities of the NN greatly. The proposed network architecture has O(pLM logM) complexity compared to a conventional fully connected L-layers network with O(M2L) complexity, where M is the number of nodes in each layer of the network, p is the number of submatrices per layer, and M >> p. We will show numerical simulations in the 24 GHz to 32 GHz range to demonstrate the numerical feasibility of realizing wideband multi-beam beamformers using the proposed neural architecture. We also show the complexity reduction of the proposed NN and compare that with fully connected NNs, to show the efficiency of the proposed architecture without sacrificing accuracy. The accuracy of the proposed NN architecture was shown using the mean squared error, which is based on an objective function of the weight matrices and beamformed signals of antenna arrays, while also normalizing nodes. The proposed NN architecture shows a low-complexity NN realizing wideband multi-beam beamformers in real-time for low-complexity intelligent systems.

arxiv情報

著者 Hansaka Aluvihare,Sivakumar Sivasankar,Xianqi Li,Arjuna Madanayake,Sirani M. Perera
発行日 2025-03-26 16:25:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.SP, I.5.1 | A Low-complexity Structured Neural Network Approach to Intelligently Realize Wideband Multi-beam Beamformers はコメントを受け付けていません

Semi-supervised Node Importance Estimation with Informative Distribution Modeling for Uncertainty Regularization

要約

ネットワーク分析の古典的な問題であるノードの重要性推定は、さまざまなWebアプリケーションを支えています。
以前の方法は、ノード機能の強化のために、グラフの中心性など、グラフの中心性など、追加情報、たとえばデータの不均一性を活用するかのいずれかです。
ただし、これらの方法は、監視された学習設定に従い、基本的な微調節の重要性データが通常、実際に部分的にラベル付けされているという事実を見落としています。
この作業では、不均一なグラフの非標識データの学習品質を改善するために、最初の半監視ノードの重要性推定フレームワークを提案します。
以前のアプローチとは異なり、モデルの予測の信頼を反映するために、不確実性を明示的にキャプチャします。
重要性の価値と不確実性を共同で推定するために、Easingには、深いエンコーダーデコーダーニューラルアーキテクチャであるDJEが組み込まれています。
DJEは、分布表現が重要性と不確実性の推定値の両方を導き出すグラフノードの分布モデリングを導入します。
さらに、DJEは、トレーニングサンプルを豊かにするために、非標識データの効果的な擬似ラベル生成を促進します。
ラベル付きおよび擬似標識データに基づいて、Easingは、さまざまなノードの不確実性の正則化を伴う効果的な半監視ヘテロ脱脱切り留学学習を開発します。
3つの実際のデータセットでの広範な実験は、競合する方法と比較して、緩和の優れた性能を強調しています。
コードはhttps://github.com/yankai-chen/easingから入手できます。

要約(オリジナル)

Node importance estimation, a classical problem in network analysis, underpins various web applications. Previous methods either exploit intrinsic topological characteristics, e.g., graph centrality, or leverage additional information, e.g., data heterogeneity, for node feature enhancement. However, these methods follow the supervised learning setting, overlooking the fact that ground-truth node-importance data are usually partially labeled in practice. In this work, we propose the first semi-supervised node importance estimation framework, i.e., EASING, to improve learning quality for unlabeled data in heterogeneous graphs. Different from previous approaches, EASING explicitly captures uncertainty to reflect the confidence of model predictions. To jointly estimate the importance values and uncertainties, EASING incorporates DJE, a deep encoder-decoder neural architecture. DJE introduces distribution modeling for graph nodes, where the distribution representations derive both importance and uncertainty estimates. Additionally, DJE facilitates effective pseudo-label generation for the unlabeled data to enrich the training samples. Based on labeled and pseudo-labeled data, EASING develops effective semi-supervised heteroscedastic learning with varying node uncertainty regularization. Extensive experiments on three real-world datasets highlight the superior performance of EASING compared to competing methods. Codes are available via https://github.com/yankai-chen/EASING.

arxiv情報

著者 Yankai Chen,Taotao Wang,Yixiang Fang,Yunyu Xiao
発行日 2025-03-26 16:27:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Semi-supervised Node Importance Estimation with Informative Distribution Modeling for Uncertainty Regularization はコメントを受け付けていません

Sinkhorn Distributionally Robust Optimization

要約

シンクホーン距離を使用して分布的に堅牢な最適化を研究します。これは、エントロピーの正則化に基づいたWasserstein距離のバリアントです。
一般的な名目分布、輸送コスト、および損失機能のための凸状のプログラミングのデュアル再定式化を導き出します。
二重の再定式化を解決するために、偏ったサブ勾配推定器を備えた確率ミラー降下アルゴリズムを開発し、その計算の複雑さの保証を導き出します。
最後に、合成データと実際のデータを使用して、その優れたパフォーマンスを実証する数値例を提供します。

要約(オリジナル)

We study distributionally robust optimization with Sinkhorn distance — a variant of Wasserstein distance based on entropic regularization. We derive a convex programming dual reformulation for general nominal distributions, transport costs, and loss functions. To solve the dual reformulation, we develop a stochastic mirror descent algorithm with biased subgradient estimators and derive its computational complexity guarantees. Finally, we provide numerical examples using synthetic and real data to demonstrate its superior performance.

arxiv情報

著者 Jie Wang,Rui Gao,Yao Xie
発行日 2025-03-26 16:30:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML | Sinkhorn Distributionally Robust Optimization はコメントを受け付けていません