Bayesian Pseudo Posterior Mechanism for Differentially Private Machine Learning

要約

差別的なプライバシー(DP)は、モデルのトレーニングにデータを使用している個人のプライバシーを保護するための強力な保証を提供するため、展開された機械学習アプリケーションにとってますます重要になっています。
ただし、機械学習で一般的に使用されるDPメカニズムは、非常に不均衡または小さなラベル付きトレーニングセットなど、多くの現実世界分布に苦労する傾向があります。
この作業では、ランダム化メカニズムとしての開示リスクに比例して承認の尤度をダウンウェイトする擬似事後分布を使用することにより、深い学習モデルであるSWAG-PPMの新しいスケーラブルなDPメカニズムを提案します。
公式統計の動機付けの例として、米国の労働安全衛生管理局(OSHA)が発行した非常に不均衡なパブリックデータセットを使用して、職場の傷害テキスト分類タスクに関するSWAG-PPMを示します。
SWAG-PPMは、同様のプライバシー予算で業界標準のDP-SGDを大幅に上回る一方で、非プライベートコンパレータに対する控えめなユーティリティの劣化のみを示していることがわかります。

要約(オリジナル)

Differential privacy (DP) is becoming increasingly important for deployed machine learning applications because it provides strong guarantees for protecting the privacy of individuals whose data is used to train models. However, DP mechanisms commonly used in machine learning tend to struggle on many real world distributions, including highly imbalanced or small labeled training sets. In this work, we propose a new scalable DP mechanism for deep learning models, SWAG-PPM, by using a pseudo posterior distribution that downweights by-record likelihood contributions proportionally to their disclosure risks as the randomized mechanism. As a motivating example from official statistics, we demonstrate SWAG-PPM on a workplace injury text classification task using a highly imbalanced public dataset published by the U.S. Occupational Safety and Health Administration (OSHA). We find that SWAG-PPM exhibits only modest utility degradation against a non-private comparator while greatly outperforming the industry standard DP-SGD for a similar privacy budget.

arxiv情報

著者 Robert Chew,Matthew R. Williams,Elan A. Segarra,Alexander J. Preiss,Amanda Konet,Terrance D. Savitsky
発行日 2025-03-27 14:17:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG, stat.ML | Bayesian Pseudo Posterior Mechanism for Differentially Private Machine Learning はコメントを受け付けていません

Exploring the Energy Landscape of RBMs: Reciprocal Space Insights into Bosons, Hierarchical Learning and Symmetry Breaking

要約

深い生成モデルは、複雑な分布から学習してサンプリングする能力により、遍在しています。
さまざまなフレームワークの急増にもかかわらず、これらのモデル間の関係はほとんど未開拓のままであり、AI学習の統一された理論の発展を妨げるギャップです。
2つの中心的な課題に対処します。さまざまな深い生成モデル間のつながりを明確にし、学習メカニズムの理解を深めます。
私たちは、離散分布の普遍的な近似能力で知られている制限付きボルツマンマシン(RBM)に焦点を当てています。
相互の空間定式化を導入することにより、RBMS、拡散プロセス、および結合ボソンの間の接続を明らかにします。
初期化時に、RBMはサドルポイントで動作します。この点では、局所曲率が単数値によって決定され、その分布はMarcenko-Pasturの法則に続き、回転対称性を示します。
トレーニング中、この回転対称性は、さまざまな程度の自由度が複数のレベルの抽象化で徐々に特徴をキャプチャするため、階層学習のために壊れます。
これは、ランダウ理論を連想させるエネルギー景観の対称性が破壊されます。
エネルギー景観のこの対称性は、特異値と重量マトリックス固有ベクトルマトリックスによって特徴付けられます。
対応する自由エネルギーを平均フィールド近似で導き出します。
無限のサイズのRBMの限界では、相互変数がガウス分布であることを示します。
私たちの調査結果は、この体制では、拡散プロセスがボルツマン分布に収束しないモードがいくつかあることを示しています。
結果を説明するために、MNISTデータセットを使用して、異なる隠れレイヤーサイズでRBMSのレプリカをトレーニングしました。
私たちの調査結果は、異なる生成的フレームワークの間のギャップを埋め、また生成モデルの学習を支えるプロセスに光を当てています。

要約(オリジナル)

Deep generative models have become ubiquitous due to their ability to learn and sample from complex distributions. Despite the proliferation of various frameworks, the relationships among these models remain largely unexplored, a gap that hinders the development of a unified theory of AI learning. We address two central challenges: clarifying the connections between different deep generative models and deepening our understanding of their learning mechanisms. We focus on Restricted Boltzmann Machines (RBMs), known for their universal approximation capabilities for discrete distributions. By introducing a reciprocal space formulation, we reveal a connection between RBMs, diffusion processes, and coupled Bosons. We show that at initialization, the RBM operates at a saddle point, where the local curvature is determined by the singular values, whose distribution follows the Marcenko-Pastur law and exhibits rotational symmetry. During training, this rotational symmetry is broken due to hierarchical learning, where different degrees of freedom progressively capture features at multiple levels of abstraction. This leads to a symmetry breaking in the energy landscape, reminiscent of Landau theory. This symmetry breaking in the energy landscape is characterized by the singular values and the weight matrix eigenvector matrix. We derive the corresponding free energy in a mean-field approximation. We show that in the limit of infinite size RBM, the reciprocal variables are Gaussian distributed. Our findings indicate that in this regime, there will be some modes for which the diffusion process will not converge to the Boltzmann distribution. To illustrate our results, we trained replicas of RBMs with different hidden layer sizes using the MNIST dataset. Our findings bridge the gap between disparate generative frameworks and also shed light on the processes underpinning learning in generative models.

arxiv情報

著者 J. Quetzalcóatl Toledo-Marin,Anindita Maiti,Geoffrey C. Fox,Roger G. Melko
発行日 2025-03-27 14:28:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.LG | Exploring the Energy Landscape of RBMs: Reciprocal Space Insights into Bosons, Hierarchical Learning and Symmetry Breaking はコメントを受け付けていません

Formation Shape Control using the Gromov-Wasserstein Metric

要約

この記事では、Gromov-Wasserstein距離を使用してエージェントの初期集団を望ましい構成に操縦するために、最適な制御フレームワークでフォーメーション形状制御アルゴリズムを紹介します。
基礎となる動的システムは、制約された線形システムであると想定されており、目的関数は二次制御依存の段階コストとグロモフヴァーサースタイン端子コストの合計です。
Gromov-Wassersteinコストを含めると、結果として生じる最適な制御問題がよく知られているNPハードの問題に変わり、数値的に要求が厳しく、高精度で解決するのが困難になります。
その目的に向かって、私たちは最近の半定義のリラクゼーション駆動型のテクニックを採用して、グロモフワーザースタインの距離に取り組みます。
結果を説明するために数値の例が提供されています。

要約(オリジナル)

This article introduces a formation shape control algorithm, in the optimal control framework, for steering an initial population of agents to a desired configuration via employing the Gromov-Wasserstein distance. The underlying dynamical system is assumed to be a constrained linear system and the objective function is a sum of quadratic control-dependent stage cost and a Gromov-Wasserstein terminal cost. The inclusion of the Gromov-Wasserstein cost transforms the resulting optimal control problem into a well-known NP-hard problem, making it both numerically demanding and difficult to solve with high accuracy. Towards that end, we employ a recent semi-definite relaxation-driven technique to tackle the Gromov-Wasserstein distance. A numerical example is provided to illustrate our results.

arxiv情報

著者 Haruto Nakashima,Siddhartha Ganguly,Kohei Morimoto,Kenji Kashima
発行日 2025-03-27 14:29:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA, cs.SY, eess.SY, math.OC | Formation Shape Control using the Gromov-Wasserstein Metric はコメントを受け付けていません

SyncSDE: A Probabilistic Framework for Diffusion Synchronization

要約

元のドメインを超えて拡張するために、共同生成のために複数の拡散モデルを活用しようとする多くの試みがありました。
顕著なアプローチでは、推定スコアを混合して生成プロセスを人為的に相関させることにより、複数の拡散軌跡を同期することが含まれます。
ただし、既存の方法は、タスクの特異性を考慮せずに、平均化などの素朴なヒューリスティックに依存しています。
これらのアプローチは、1つのタスクに適したヒューリスティックが他のタスクに盲目的に適用される場合、そのような方法が機能し、しばしば失敗する理由を明確にしません。
この論文では、拡散同期が機能する理由を分析するための確率的フレームワークを紹介し、ヒューリスティックが焦点を合わせるべき場所を明らかにします – 複数の軌跡の間の相関をモデル化し、それらを各特定のタスクに適応させます。
さらに、タスクごとに最適な相関モデルを特定し、正当化なしにすべてのタスクに単一のヒューリスティックを適用する以前のアプローチよりも優れた結果を達成します。

要約(オリジナル)

There have been many attempts to leverage multiple diffusion models for collaborative generation, extending beyond the original domain. A prominent approach involves synchronizing multiple diffusion trajectories by mixing the estimated scores to artificially correlate the generation processes. However, existing methods rely on naive heuristics, such as averaging, without considering task specificity. These approaches do not clarify why such methods work and often fail when a heuristic suitable for one task is blindly applied to others. In this paper, we present a probabilistic framework for analyzing why diffusion synchronization works and reveal where heuristics should be focused – modeling correlations between multiple trajectories and adapting them to each specific task. We further identify optimal correlation models per task, achieving better results than previous approaches that apply a single heuristic across all tasks without justification.

arxiv情報

著者 Hyunjun Lee,Hyunsoo Lee,Sookwan Han
発行日 2025-03-27 14:40:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG | SyncSDE: A Probabilistic Framework for Diffusion Synchronization はコメントを受け付けていません

Consistent Multigroup Low-Rank Approximation

要約

マルチグループデータの一貫した低ランク近似の問題を検討します。グループ間の最大エラーを最小化することにより、範囲のサブスペースにデータを予測することにより、可能な限りすべてのグループを可能な限り扱うように、$ k $基底ベクトルのシーケンスを要求します。
さらに、一連の基底ベクトルが自然な一貫性プロパティを満たすことが必要です。最高の$ k $ベクトルを探す場合、最初の$ d 要約(オリジナル)

We consider the problem of consistent low-rank approximation for multigroup data: we ask for a sequence of $k$ basis vectors such that projecting the data onto their spanned subspace treats all groups as equally as possible, by minimizing the maximum error among the groups. Additionally, we require that the sequence of basis vectors satisfies the natural consistency property: when looking for the best $k$ vectors, the first $darxiv情報

著者 Antonis Matakos,Martino Ciaperoni,Heikki Mannila
発行日 2025-03-27 14:47:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Consistent Multigroup Low-Rank Approximation はコメントを受け付けていません

Fusion of Graph Neural Networks via Optimal Transport

要約

この論文では、GCNを1つのモデルに組み合わせるというアイデアを探ります。
そのために、最適な輸送(OT)を使用して、レイヤーごとの異なるモデルの重みを整列させます。
3種類の輸送コストを提示して評価し、調査した融合法がバニラ平均のパフォーマンスを常に上回ることを示します。
最後に、OTを使用したモデル融合がMLPよりもGCNSの場合に硬く、グラフ構造をプロセスに組み込むことがメソッドのパフォーマンスを改善しないことを示唆する結果を提示します。

要約(オリジナル)

In this paper, we explore the idea of combining GCNs into one model. To that end, we align the weights of different models layer-wise using optimal transport (OT). We present and evaluate three types of transportation costs and show that the studied fusion method consistently outperforms the performance of vanilla averaging. Finally, we present results suggesting that model fusion using OT is harder in the case of GCNs than MLPs and that incorporating the graph structure into the process does not improve the performance of the method.

arxiv情報

著者 Weronika Ormaniec,Michael Vollenweider,Elisa Hoskovec
発行日 2025-03-27 14:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Fusion of Graph Neural Networks via Optimal Transport はコメントを受け付けていません

Probabilistic Functional Neural Networks

要約

高次元機能時系列(HDFT)は、しばしば非線形トレンドと高い空間寸法によって特徴付けられます。
このようなデータは、非線形性、非定常性、および高次元のために、モデリングと予測に固有の課題をもたらします。
これらの課題に対処するために、新しい確率的機能ニューラルネットワーク(ProfNet)を提案します。
ProfNetは、フィードフォワードおよびディープニューラルネットワークの強度を確率モデリングと統合します。
このモデルは、モンテカルロサンプリングを使用して確率的予測を生成し、予測の不確実性の定量化も可能にします。
複数の領域で時間的および空間的依存関係の両方をキャプチャしながら、ProfNetは、大規模なデータセットにスケーラブルで統一されたソリューションを提供します。
日本の死亡率への適用は、優れたパフォーマンスを示しています。
このアプローチは、予測精度を高め、解釈可能な不確実性の推定値を提供し、複雑な高次元機能データとHDFTを予測するための貴重なツールになります。

要約(オリジナル)

High-dimensional functional time series (HDFTS) are often characterized by nonlinear trends and high spatial dimensions. Such data poses unique challenges for modeling and forecasting due to the nonlinearity, nonstationarity, and high dimensionality. We propose a novel probabilistic functional neural network (ProFnet) to address these challenges. ProFnet integrates the strengths of feedforward and deep neural networks with probabilistic modeling. The model generates probabilistic forecasts using Monte Carlo sampling and also enables the quantification of uncertainty in predictions. While capturing both temporal and spatial dependencies across multiple regions, ProFnet offers a scalable and unified solution for large datasets. Applications to Japan’s mortality rates demonstrate superior performance. This approach enhances predictive accuracy and provides interpretable uncertainty estimates, making it a valuable tool for forecasting complex high-dimensional functional data and HDFTS.

arxiv情報

著者 Haixu Wang,Jiguo Cao
発行日 2025-03-27 15:01:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Probabilistic Functional Neural Networks はコメントを受け付けていません

Generalizable Implicit Neural Representations via Parameterized Latent Dynamics for Baroclinic Ocean Forecasting

要約

メソスケールオーシャンダイナミクスは、気候システムにおいて重要な役割を果たし、熱輸送、ハリケーンジェネシス、干ばつパターンを統治しています。
ただし、これらのプロセスを高解像度でシミュレートすると、非線形のマルチスケールの性質と広大な時空ドメインのために、計算上法外なままです。
暗黙の神経表現(INR)は、分解能に依存しない代理として計算コストを削減しますが、多様なパラメーター全体で迅速な評価を必要とする多くのクエリシナリオ(逆モデリング)で失敗します。
これらの制限に対処するために、ダイナミクスを意識した暗黙の神経表現とパラメーター化された神経の通常の微分方程式を組み合わせた新しいフレームワークであるPinrodを提示します。
パラメトリック依存性を潜在的なダイナミクスに統合することにより、この方法は、さまざまな境界条件と物理的パラメーターにわたって非線形の海洋行動を効率的にキャプチャします。
オーシャンメソスケールアクティビティデータに関する実験は、既存のベースラインよりも優れた精度を示し、標準の数値シミュレーションと比較して計算効率の向上を示しています。

要約(オリジナル)

Mesoscale ocean dynamics play a critical role in climate systems, governing heat transport, hurricane genesis, and drought patterns. However, simulating these processes at high resolution remains computationally prohibitive due to their nonlinear, multiscale nature and vast spatiotemporal domains. Implicit neural representations (INRs) reduce the computational costs as resolution-independent surrogates but fail in many-query scenarios (inverse modeling) requiring rapid evaluations across diverse parameters. We present PINROD, a novel framework combining dynamics-aware implicit neural representations with parameterized neural ordinary differential equations to address these limitations. By integrating parametric dependencies into latent dynamics, our method efficiently captures nonlinear oceanic behavior across varying boundary conditions and physical parameters. Experiments on ocean mesoscale activity data show superior accuracy over existing baselines and improved computational efficiency compared to standard numerical simulations.

arxiv情報

著者 Guang Zhao,Xihaier Luo,Seungjun Lee,Yihui Ren,Shinjae Yoo,Luke Van Roekel,Balu Nadiga,Sri Hari Krishna Narayanan,Yixuan Sun,Wei Xu
発行日 2025-03-27 15:04:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Generalizable Implicit Neural Representations via Parameterized Latent Dynamics for Baroclinic Ocean Forecasting はコメントを受け付けていません

ScalingNoise: Scaling Inference-Time Search for Generating Infinite Videos

要約

ビデオ拡散モデル(VDMS)は、高品質のビデオの生成を促進し、現在の研究は、データの品質、計算リソース、モデルの複雑さの改善を通じて、トレーニング中のスケーリングの取り組みに主に集中しています。
ただし、推論時間スケーリングはあまり注目されておらず、ほとんどのアプローチはモデルを単一の世代の試みに制限しています。
最近の研究では、世代中のビデオ品質を向上させることができる「黄金の騒音」の存在が明らかになりました。
これに基づいて、より良いノイズ候補を識別するためにVDMSのスケーリング推論時間検索をガイドすることは、現在のステップで生成されたフレームの品質を評価するだけでなく、以前のマルチチャンクからのアンカーフレームを参照し、それによって長期的な価値を提供することにより、高レベルのオブジェクト機能を維持することがわかります。
我々の分析は、拡散モデルが、除去ステップを変化させることにより、計算の柔軟な調整を本質的に持っていること、さらには報酬信号に導かれた場合、1段階の除去アプローチでさえ、大きな長期的な利益をもたらすことを明らかにしています。
観察に基づいて、グローバルなコンテンツの一貫性と視覚的多様性を改善するために拡散サンプリングプロセスの黄金の初期ノイズを特定するプラグアンドプレイの推論時間検索戦略であるESSCALINGNOISEを提案します。
具体的には、初期ノイズをクリップに変換し、その後、その長期的な価値を評価し、以前に生成されたコンテンツによって固定された報酬モデルを活用して、ワンステップの除去を実行します。
さらに、多様性を維持するために、私たちは候補者を、重量を約束する音の傾斜分布からサンプリングします。
このようにして、ScalingNoiseはノイズ誘発エラーを大幅に減らし、よりコヒーレントで空間的に一貫したビデオ生成を確保します。
ベンチマークデータセットでの広範な実験は、提案されたScalingNoiseが長いビデオ生成を効果的に改善することを示しています。

要約(オリジナル)

Video diffusion models (VDMs) facilitate the generation of high-quality videos, with current research predominantly concentrated on scaling efforts during training through improvements in data quality, computational resources, and model complexity. However, inference-time scaling has received less attention, with most approaches restricting models to a single generation attempt. Recent studies have uncovered the existence of ‘golden noises’ that can enhance video quality during generation. Building on this, we find that guiding the scaling inference-time search of VDMs to identify better noise candidates not only evaluates the quality of the frames generated in the current step but also preserves the high-level object features by referencing the anchor frame from previous multi-chunks, thereby delivering long-term value. Our analysis reveals that diffusion models inherently possess flexible adjustments of computation by varying denoising steps, and even a one-step denoising approach, when guided by a reward signal, yields significant long-term benefits. Based on the observation, we proposeScalingNoise, a plug-and-play inference-time search strategy that identifies golden initial noises for the diffusion sampling process to improve global content consistency and visual diversity. Specifically, we perform one-step denoising to convert initial noises into a clip and subsequently evaluate its long-term value, leveraging a reward model anchored by previously generated content. Moreover, to preserve diversity, we sample candidates from a tilted noise distribution that up-weights promising noises. In this way, ScalingNoise significantly reduces noise-induced errors, ensuring more coherent and spatiotemporally consistent video generation. Extensive experiments on benchmark datasets demonstrate that the proposed ScalingNoise effectively improves long video generation.

arxiv情報

著者 Haolin Yang,Feilong Tang,Ming Hu,Yulong Li,Yexin Liu,Zelin Peng,Junjun He,Zongyuan Ge,Imran Razzak
発行日 2025-03-27 15:12:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | ScalingNoise: Scaling Inference-Time Search for Generating Infinite Videos はコメントを受け付けていません

Nonlinear Multiple Response Regression and Learning of Latent Spaces

要約

高次元データ内の低次元の潜在的構造を特定することは、データの圧縮、ストレージ、送信、およびより深いデータ理解の必要性に駆り立てられた、機械学習コミュニティの中心的なトピックでした。
主成分分析(PCA)や自動エンコーダー(AE)などの従来の方法は、利用可能な場合でもラベル情報を無視して、監視されていない方法で動作します。
この作業では、監視されていない設定と監督された設定の両方で潜在スペースを学習できる統一された方法を紹介します。
インデックスモデルコンテキスト内の非線形多重応答回帰として問題を定式化します。
一般化されたスタインの補題を適用することにより、非線形リンク関数を知らずに潜在スペースを推定できます。
私たちの方法は、PCAの非線形一般化と見なすことができます。
さらに、「ブラックボックス」として動作するAEやその他のニューラルネットワークメソッドとは異なり、このアプローチはより良い解釈可能性を提供するだけでなく、強力な理論的保証を提供しながら計算の複雑さを軽減します。
包括的な数値実験と実際のデータ分析は、私たちの方法の優れた性能を示しています。

要約(オリジナル)

Identifying low-dimensional latent structures within high-dimensional data has long been a central topic in the machine learning community, driven by the need for data compression, storage, transmission, and deeper data understanding. Traditional methods, such as principal component analysis (PCA) and autoencoders (AE), operate in an unsupervised manner, ignoring label information even when it is available. In this work, we introduce a unified method capable of learning latent spaces in both unsupervised and supervised settings. We formulate the problem as a nonlinear multiple-response regression within an index model context. By applying the generalized Stein’s lemma, the latent space can be estimated without knowing the nonlinear link functions. Our method can be viewed as a nonlinear generalization of PCA. Moreover, unlike AE and other neural network methods that operate as ‘black boxes’, our approach not only offers better interpretability but also reduces computational complexity while providing strong theoretical guarantees. Comprehensive numerical experiments and real data analyses demonstrate the superior performance of our method.

arxiv情報

著者 Ye Tian,Sanyou Wu,Long Feng
発行日 2025-03-27 15:28:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Nonlinear Multiple Response Regression and Learning of Latent Spaces はコメントを受け付けていません