Fenchel-Young Variational Learning

要約

変動の観点から、多くの統計学習基準には、経験的リスクと正則化のバランスをとる分布を求めることが含まれます。
この論文では、フェンチェルヨン(FY)の損失に基づいた新しい一般的なクラスの変動方法を導入することにより、この視点を広げます。
提案された策定 – FY変動学習 – には、FY自由エネルギー、FY証拠、FY証拠下限、およびFY事後の主要な成分として含まれています。
交互の最小化と勾配のバックプロパゲーションアルゴリズムを導き出して、以前の変動定式化よりも幅広いクラスのモデルを学習できるFY証拠を計算(または下限)します。
これにより、FYの期待値最大化(FYEM)アルゴリズムなどの古典的なアルゴリズムの一般的なFYバリアント、およびFY変分自動エンコーダー(FYVAE)などの潜在的な変動モデルにつながります。
私たちの新しい方法は、経験的に競争力があり、しばしば古典的なカウンターパートを上回ることができ、最も重要なこととして、定性的に新しい機能を持つことが示されています。
たとえば、ファイムは適応的にまばらなEステップを持っていますが、ファイバはまばらな観測とまばらな事後のモデルをサポートできます。

要約(オリジナル)

From a variational perspective, many statistical learning criteria involve seeking a distribution that balances empirical risk and regularization. In this paper, we broaden this perspective by introducing a new general class of variational methods based on Fenchel-Young (FY) losses, treated as divergences that generalize (and encompass) the familiar Kullback-Leibler divergence at the core of classical variational learning. Our proposed formulation — FY variational learning — includes as key ingredients new notions of FY free energy, FY evidence, FY evidence lower bound, and FY posterior. We derive alternating minimization and gradient backpropagation algorithms to compute (or lower bound) the FY evidence, which enables learning a wider class of models than previous variational formulations. This leads to generalized FY variants of classical algorithms, such as an FY expectation-maximization (FYEM) algorithm, and latent-variable models, such as an FY variational autoencoder (FYVAE). Our new methods are shown to be empirically competitive, often outperforming their classical counterparts, and most importantly, to have qualitatively novel features. For example, FYEM has an adaptively sparse E-step, while the FYVAE can support models with sparse observations and sparse posteriors.

arxiv情報

著者 Sophia Sklaviadis,Sweta Agrawal,Antonio Farinhas,Andre Martins,Mario Figueiredo
発行日 2025-02-14 16:57:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Fenchel-Young Variational Learning はコメントを受け付けていません

VT-GAN: Cooperative Tabular Data Synthesis using Vertical Federated Learning

要約

このホワイトペーパーでは、垂直フェデレートラーニング(VFL)の適用を提示して、生成攻撃ネットワーク(GAN)を使用して合成表形式データを生成します。
VFLは、同じ顧客グループのためにばらばらの機能を持っている金融機関など、異なる表形式データホルダーの間で機械学習モデルを訓練するための共同アプローチです。
このペーパーでは、VT-GANフレームワークである垂直フェデレーションの表形状GANを紹介し、VFLを使用して、分布した表形式データのGANをプライバシーに基づいて実装できることを実証します。
GANジェネレーターと識別子モデルの配布に関して設計を選択し、Gan条件付きベクターからのトレーニングデータを再構築できないように、シャッフルテクニックのトレーニングを導入します。
この論文は、(1)VT-GANの実装、(2)VT-GAN生成された合成データの詳細な品質評価、(3)VT-GANフレームワークの全体的なスケーラビリティ検査、(4)セキュリティ分析のセキュリティ分析
さまざまな分布特性を備えたさまざまなデータセットの場合、さまざまなプライバシーのさまざまな設定を伴うメンバーシップ推論攻撃に対するVT-Ganの堅牢性。
我々の結果は、VT-GANが集中GANアルゴリズムによって生成されたものと同等の品質の高忠実度の合成表形式データを一貫して生成できることを示しています。
機械学習ユーティリティの違いは、クライアント間での非常に不均衡なデータ分布または異なる数のクライアントであっても、2.7%という低い場合があります。

要約(オリジナル)

This paper presents the application of Vertical Federated Learning (VFL) to generate synthetic tabular data using Generative Adversarial Networks (GANs). VFL is a collaborative approach to train machine learning models among distinct tabular data holders, such as financial institutions, who possess disjoint features for the same group of customers. In this paper we introduce the VT-GAN framework, Vertical federated Tabular GAN, and demonstrate that VFL can be successfully used to implement GANs for distributed tabular data in privacy-preserving manner, with performance close to centralized GANs that assume shared data. We make design choices with respect to the distribution of GAN generator and discriminator models and introduce a training-with-shuffling technique so that no party can reconstruct training data from the GAN conditional vector. The paper presents (1) an implementation of VT-GAN, (2) a detailed quality evaluation of the VT-GAN-generated synthetic data, (3) an overall scalability examination of VT-GAN framework, (4) a security analysis on VT-GAN’s robustness against Membership Inference Attack with different settings of Differential Privacy, for a range of datasets with diverse distribution characteristics. Our results demonstrate that VT-GAN can consistently generate high-fidelity synthetic tabular data of comparable quality to that generated by a centralized GAN algorithm. The difference in machine learning utility can be as low as 2.7%, even under extremely imbalanced data distributions across clients or with different numbers of clients.

arxiv情報

著者 Zilong Zhao,Han Wu,Aad Van Moorsel,Lydia Y. Chen
発行日 2025-02-14 17:05:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | VT-GAN: Cooperative Tabular Data Synthesis using Vertical Federated Learning はコメントを受け付けていません

Uncertainty-Aware Explanations Through Probabilistic Self-Explainable Neural Networks

要約

深いニューラルネットワークの透明性の欠如は、ハイステークスアプリケーションでの信頼性と使用を深刻に損なう制限であり続けています。
このような制限を克服する有望なアプローチは、プロトタイプベースの自己実験可能なニューラルネットワーク(PSENNS)です。その予測は、手元の入力と出力クラスのプロトタイプ表現のセットとの類似性に依存しているため、深い、しかし透明性を提供します。
– 設計、アーキテクチャ。
この論文では、Prob-Psennと呼ばれるPsennsの確率的再構成を紹介します。これは、プロトタイプの点推定値をその値に対する確率分布に置き換えます。
これは、プロトタイプのエンドツーエンドの学習のためのより柔軟なフレームワークを提供するだけでなく、モデルの説明的な不確実性をキャプチャすることもできます。これは、以前のアプローチでは欠落している機能です。
さらに、プロトタイプは説明と予測の両方を決定するため、prob-psennsにより、モデルが情報のない予測または不確実な予測をいつ作成しているかを検出し、それらの有効な説明を取得できます。
私たちの実験は、Prob-Psennsが非生産性のあるカウンターパートよりも有意義で堅牢な説明を提供しながら、予測パフォーマンスの観点から競争力を維持し、モデルの説明可能性と信頼性を高めることを示しています。

要約(オリジナル)

The lack of transparency of Deep Neural Networks continues to be a limitation that severely undermines their reliability and usage in high-stakes applications. Promising approaches to overcome such limitations are Prototype-Based Self-Explainable Neural Networks (PSENNs), whose predictions rely on the similarity between the input at hand and a set of prototypical representations of the output classes, offering therefore a deep, yet transparent-by-design, architecture. In this paper, we introduce a probabilistic reformulation of PSENNs, called Prob-PSENN, which replaces point estimates for the prototypes with probability distributions over their values. This provides not only a more flexible framework for an end-to-end learning of prototypes, but can also capture the explanatory uncertainty of the model, which is a missing feature in previous approaches. In addition, since the prototypes determine both the explanation and the prediction, Prob-PSENNs allow us to detect when the model is making uninformed or uncertain predictions, and to obtain valid explanations for them. Our experiments demonstrate that Prob-PSENNs provide more meaningful and robust explanations than their non-probabilistic counterparts, while remaining competitive in terms of predictive performance, thus enhancing the explainability and reliability of the models.

arxiv情報

著者 Jon Vadillo,Roberto Santana,Jose A. Lozano,Marta Kwiatkowska
発行日 2025-02-14 17:30:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Uncertainty-Aware Explanations Through Probabilistic Self-Explainable Neural Networks はコメントを受け付けていません

Training Neural Networks on Data Sources with Unknown Reliability

要約

データが複数のソースによって生成される場合、従来のトレーニング方法は、各ソースの信頼性が等しいと仮定してモデルを更新し、個々のデータ品質を考慮しません。
ただし、多くのアプリケーションでは、情報源には、ニューラルネットワークのパフォーマンスに悪影響を与える可能性のある信頼性のさまざまなレベルがあります。
重要な問題は、多くの場合、個々のソースのデータの品質がトレーニング中に知られていないことです。
騒々しいデータの存在下でモデルをトレーニングするための以前の方法では、ソースラベルが提供できる追加情報を使用していません。
監視された学習に焦点を当てて、私たちは、可能性のある抑制によって動機付けられた動的な再重視戦略を使用して、ソースの推定信頼性に比例した多くのステップについて、各データソースのニューラルネットワークをトレーニングすることを目指しています。
このようにして、ウォームアップ中にすべてのソースでのトレーニングを許可し、モデルがノイズに過剰に輝くことが示されている最終的なトレーニング段階での信頼性の低いソースの学習を減らします。
多様な実験を通じて、これにより、信頼性の高い信頼できないデータソースの混合物でトレーニングされたときにモデルのパフォーマンスが大幅に向上し、信頼できるソースのみでモデルがトレーニングされている場合のパフォーマンスを維持できることが示されています。

要約(オリジナル)

When data is generated by multiple sources, conventional training methods update models assuming equal reliability for each source and do not consider their individual data quality. However, in many applications, sources have varied levels of reliability that can have negative effects on the performance of a neural network. A key issue is that often the quality of the data for individual sources is not known during training. Previous methods for training models in the presence of noisy data do not make use of the additional information that the source label can provide. Focusing on supervised learning, we aim to train neural networks on each data source for a number of steps proportional to the source’s estimated reliability by using a dynamic re-weighting strategy motivated by likelihood tempering. This way, we allow training on all sources during the warm-up and reduce learning on less reliable sources during the final training stages, when it has been shown that models overfit to noise. We show through diverse experiments that this can significantly improve model performance when trained on mixtures of reliable and unreliable data sources, and maintain performance when models are trained on reliable sources only.

arxiv情報

著者 Alexander Capstick,Francesca Palermo,Tianyu Cui,Payam Barnaghi
発行日 2025-02-14 17:35:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Training Neural Networks on Data Sources with Unknown Reliability はコメントを受け付けていません

Explain Yourself, Briefly! Self-Explaining Neural Networks with Concise Sufficient Reasons

要約

*最小限の十分な理由*一般的な説明の形式を表します – それに対応する値に一定に保持されている場合、予測が変更されないことを確認する入力機能の最小サブセット。
以前の *事後 *メソッドそのような説明を取得しようとしますが、2つの主な制限に直面します。(1)これらのサブセットを取得することは計算上の課題をもたらし、最もスケーラブルな方法を最適ではない、意味のないサブセットに収束させます。
(2)これらのメソッドは、分散不足の入力割り当てのサンプリングに大きく依存しており、潜在的に直感に反する動作をもたらします。
これらの制限に取り組むために、この作業では、自己教師のトレーニングアプローチを提案します。これは *十分なサブセットトレーニング *(SST)と呼ばれます。
SSTを使用して、モデルをトレーニングして、出力の不可欠な部分として予測の簡潔な十分な理由を生成します。
私たちの結果は、私たちのフレームワークが、競合する事後の方法よりも簡潔で忠実なサブセットが大幅に効率的に生成され、同等の予測パフォーマンスを維持することを示しています。

要約(オリジナル)

*Minimal sufficient reasons* represent a prevalent form of explanation – the smallest subset of input features which, when held constant at their corresponding values, ensure that the prediction remains unchanged. Previous *post-hoc* methods attempt to obtain such explanations but face two main limitations: (1) Obtaining these subsets poses a computational challenge, leading most scalable methods to converge towards suboptimal, less meaningful subsets; (2) These methods heavily rely on sampling out-of-distribution input assignments, potentially resulting in counterintuitive behaviors. To tackle these limitations, we propose in this work a self-supervised training approach, which we term *sufficient subset training* (SST). Using SST, we train models to generate concise sufficient reasons for their predictions as an integral part of their output. Our results indicate that our framework produces succinct and faithful subsets substantially more efficiently than competing post-hoc methods, while maintaining comparable predictive performance.

arxiv情報

著者 Shahaf Bassan,Ron Eliav,Shlomit Gur
発行日 2025-02-14 17:39:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.LO | Explain Yourself, Briefly! Self-Explaining Neural Networks with Concise Sufficient Reasons はコメントを受け付けていません

Generalised Parallel Tempering: Flexible Replica Exchange via Flows and Diffusions

要約

Parallel Tempering(PT)は、並列計算を活用するために設計された古典的なMCMCアルゴリズムで、アニーリングを介した高次元、マルチモーダル、またはその他の複雑な分布から効率的にサンプリングします。
PTの標準定式化の1つの制限は、ますます困難な分布のために、効果的なサンプルサイズまたは往復率で測定されるように、高品質のサンプルを生成するために必要な計算リソースの成長です。
この問題に対処するために、Frameworkを提案します。これは、MCMCと同じ理論的保証を維持しながら、並列抑制内で、フローや拡散モデルの正規化や拡散モデルなど、最近の生成モデリングに最近の進歩を組み込むことを可能にする一般化された並列抑制(GEPT)を提案します。
ベースの方法。
たとえば、これにより、拡散モデルを並列化された方法で利用できることを示しており、高品質のサンプルを生成するために多数のステップの通常の計算コストをバイパスします。
さらに、GEPTがサンプルの品質を改善し、古典的なアルゴリズム上の複雑な分布を処理するために必要な計算リソースの成長を減らすことができることを経験的に実証します。

要約(オリジナル)

Parallel Tempering (PT) is a classical MCMC algorithm designed for leveraging parallel computation to sample efficiently from high-dimensional, multimodal or otherwise complex distributions via annealing. One limitation of the standard formulation of PT is the growth of computational resources required to generate high-quality samples, as measured by effective sample size or round trip rate, for increasingly challenging distributions. To address this issue, we propose the framework: Generalised Parallel Tempering (GePT) which allows for the incorporation of recent advances in modern generative modelling, such as normalising flows and diffusion models, within Parallel Tempering, while maintaining the same theoretical guarantees as MCMC-based methods. For instance, we show that this allows us to utilise diffusion models in a parallelised manner, bypassing the usual computational cost of a large number of steps to generate quality samples. Further, we empirically demonstrate that GePT can improve sample quality and reduce the growth of computational resources required to handle complex distributions over the classical algorithm.

arxiv情報

著者 Leo Zhang,Peter Potaptchik,Arnaud Doucet,Hai-Dang Dau,Saifuddin Syed
発行日 2025-02-14 17:41:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Generalised Parallel Tempering: Flexible Replica Exchange via Flows and Diffusions はコメントを受け付けていません

DiOpt: Self-supervised Diffusion for Constrained Optimization

要約

拡散モデルの最近の進歩は、ローカルオプティマを逃れるためのマルチモーダルサンプリング機能を活用することにより、学習ベースの最適化の有望な可能性を示しています。
ただし、多くの場合、監視されたトレーニングに依存している既存の拡散ベースの最適化アプローチには、実際のアプリケーションでしばしば必要とされる厳格な制約満足度を確保するメカニズムがありません。
結果として生じる1つの観察結果は、分布の不整合です。つまり、生成されたソリューション分布は、しばしば実行可能なドメインと小さな重複を示します。
この論文では、繰り返しの自己トレーニングを通じて、最適に近いソリューション分布を体系的に学習する新しい拡散パラダイムであるDioptを提案します。
私たちのフレームワークでは、いくつかの重要な革新を紹介します。制約されたソリューションマニホールドとのオーバーラップを最大化するために特別に設計されたターゲット分布。
制約違反と最適性のギャップの重症度に基づいて候補ソリューションを適応的に重み付けするブートストラップの自己訓練メカニズム。
トレーニングの繰り返しよりも高品質のソリューションを保持することにより、収束を加速する動的メモリバッファー。
私たちの知る限り、DioPTは、自己監視の拡散と硬い制約満足度の最初の成功した統合を表しています。
パワーグリッド制御、モーションリターゲティング、ワイヤレス割り当てなど、多様なタスクの評価は、最適性と制約満足度の両方の観点からその優位性を示しています。

要約(オリジナル)

Recent advances in diffusion models show promising potential for learning-based optimization by leveraging their multimodal sampling capability to escape local optima. However, existing diffusion-based optimization approaches, often reliant on supervised training, lacks a mechanism to ensure strict constraint satisfaction which is often required in real-world applications. One resulting observation is the distributional misalignment, i.e. the generated solution distribution often exhibits small overlap with the feasible domain. In this paper, we propose DiOpt, a novel diffusion paradigm that systematically learns near-optimal feasible solution distributions through iterative self-training. Our framework introduces several key innovations: a target distribution specifically designed to maximize overlap with the constrained solution manifold; a bootstrapped self-training mechanism that adaptively weights candidate solutions based on the severity of constraint violations and optimality gaps; and a dynamic memory buffer that accelerates convergence by retaining high-quality solutions over training iterations. To our knowledge, DiOpt represents the first successful integration of self-supervised diffusion with hard constraint satisfaction. Evaluations on diverse tasks, including power grid control, motion retargeting, wireless allocation demonstrate its superiority in terms of both optimality and constraint satisfaction.

arxiv情報

著者 Shutong Ding,Yimiao Zhou,Ke Hu,Xi Yao,Junchi Yan,Xiaoying Tang,Ye Shi
発行日 2025-02-14 17:43:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | DiOpt: Self-supervised Diffusion for Constrained Optimization はコメントを受け付けていません

InfoPos: A ML-Assisted Solution Design Support Framework for Industrial Cyber-Physical Systems

要約

データ中心およびML支援ソリューションに組み込まれたさまざまなビルディングブロックとアルゴリズムは高く、2つの課題に貢献しています。最も効果的なセットの選択とビルディングブロックの順序、および最小コストでの選択を達成することです。
MLアシストソリューション設計は、利用可能なデータの範囲とターゲットシステムの利用可能な知識の影響を受けていることを考慮すると、一致するビルディングブロックを選択できることが有利です。
Infoposフレームワークの最初の反復を導入し、利用可能な位置(レベル)、つまり貧弱から豊かなもの、知識、データの側面を考慮して、ユースケースの配置を可能にします。
その入力により、デザイナーと開発者は、最も効果的な対応する選択肢を明らかにし、ソリューション設計プロセスを合理化できます。
産業用サイバー物理システムの異常識別ユースケースであるデモンストレーターの結果は、知識とデータの位置を通じてさまざまなビルディングブロックの使用に対する達成された効果を反映しています。
達成されたMLモデルのパフォーマンスは、インジケータと見なされます。
データ処理コードと構成されたデータセットは公開されています。

要約(オリジナル)

The variety of building blocks and algorithms incorporated in data-centric and ML-assisted solutions is high, contributing to two challenges: selection of most effective set and order of building blocks, as well as achieving such a selection with minimum cost. Considering that ML-assisted solution design is influenced by the extent of available data, as well as available knowledge of the target system, it is advantageous to be able to select matching building blocks. We introduce the first iteration of our InfoPos framework, allowing the placement of use-cases considering the available positions (levels), i.e., from poor to rich, of knowledge and data dimensions. With that input, designers and developers can reveal the most effective corresponding choice(s), streamlining the solution design process. The results from our demonstrator, an anomaly identification use-case for industrial Cyber-Physical Systems, reflects achieved effects upon the use of different building blocks throughout knowledge and data positions. The achieved ML model performance is considered as the indicator. Our data processing code and the composed data sets are publicly available.

arxiv情報

著者 Uraz Odyurt,Richard Loendersloot,Tiedo Tinga
発行日 2025-02-14 17:43:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | InfoPos: A ML-Assisted Solution Design Support Framework for Industrial Cyber-Physical Systems はコメントを受け付けていません

RASPNet: A Benchmark Dataset for Radar Adaptive Signal Processing Applications

要約

適応レーダーコミュニティ内のデータ駆動型モデルの開発をサポートするために、レーダー適応信号処理(RASP)アプリケーション用の大規模なデータセットを提示します。
データセットであるRaspNetのサイズが16 TBを超え、隣接する米国中のさまざまな地形と土地タイプにわたって編集された100の現実的なシナリオで構成されています。
各シナリオについて、RaspNetは、空中レーダー設定からの10,000のクラッター実現で構成されており、レーダーと複雑な学習アルゴリズムのベンチマークに使用できます。
RASPNETは、適応レーダー処理技術と複雑な値のニューラルネットワークの評価を標準化する大規模で現実的なデータセットの可用性に顕著なギャップを埋めることを目的としています。
RaspNetを現実的な適応レーダー処理シナリオに使用する方法を示すための転送学習の例を含む、その構築、組織、およびいくつかのアプリケーションの概要を説明します。

要約(オリジナル)

We present a large-scale dataset for radar adaptive signal processing (RASP) applications to support the development of data-driven models within the adaptive radar community. The dataset, RASPNet, exceeds 16 TB in size and comprises 100 realistic scenarios compiled over a variety of topographies and land types from across the contiguous United States. For each scenario, RASPNet consists of 10,000 clutter realizations from an airborne radar setting, which can be used to benchmark radar and complex-valued learning algorithms. RASPNet intends to fill a prominent gap in the availability of a large-scale, realistic dataset that standardizes the evaluation of adaptive radar processing techniques and complex-valued neural networks. We outline its construction, organization, and several applications, including a transfer learning example to demonstrate how RASPNet can be used for realistic adaptive radar processing scenarios.

arxiv情報

著者 Shyam Venkatasubramanian,Bosung Kang,Ali Pezeshki,Muralidhar Rangaswamy,Vahid Tarokh
発行日 2025-02-14 17:49:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.SP | RASPNet: A Benchmark Dataset for Radar Adaptive Signal Processing Applications はコメントを受け付けていません

Studying number theory with deep learning: a case study with the Möbius and squarefree indicator functions

要約

チャートンの作業に基づいて、小さな変圧器モデルをトレーニングして、M \ ‘obius関数$ \ mu(n)$とスクエアフリーインジケーター関数$ \ mu^2(n)$を計算します。
モデルは、自明でない予測力を達成します。
次に、追加のモデルを繰り返しトレーニングして、モデルがどのように機能するかを理解し、最終的に理論的な説明を見つけます。

要約(オリジナル)

Building on work of Charton, we train small transformer models to calculate the M\’obius function $\mu(n)$ and the squarefree indicator function $\mu^2(n)$. The models attain nontrivial predictive power. We then iteratively train additional models to understand how the model functions, ultimately finding a theoretical explanation.

arxiv情報

著者 David Lowry-Duda
発行日 2025-02-14 17:50:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.NT | Studying number theory with deep learning: a case study with the Möbius and squarefree indicator functions はコメントを受け付けていません