Gaussian Process Thompson Sampling via Rootfinding

要約

トンプソン サンプリング (TS) は、ベイジアン意思決定におけるシンプルで効果的な確率論的ポリシーです。
報酬プロファイルに関する事後信念をサンプリングし、候補の決定を得るためにサンプルを最適化します。
連続最適化では、目的関数の事後関数はガウス過程 (GP) であることが多く、そのサンプル パスには多数の局所最適化があり、全体的な最適化が困難になります。
この研究では、勾配ベースのマルチスタート オプティマイザーの開始点を慎重に選択する、GP-TS の効率的なグローバル最適化戦略を紹介します。
これは、一変量グローバル根探索を通じて前のサンプルのすべての局所最適値を特定し、微分可能な分離表現を使用して事後サンプルを最適化します。
我々は、GP 事後サンプルの全体的な最適化、特に高次元での顕著な改善を実証しました。
これにより、GP-TS 取得関数を使用したベイジアン最適化の全体的なパフォーマンスが劇的に向上し、驚くべきことに GP-UCB や EI などの代替手法を上回ります。

要約(オリジナル)

Thompson sampling (TS) is a simple, effective stochastic policy in Bayesian decision making. It samples the posterior belief about the reward profile and optimizes the sample to obtain a candidate decision. In continuous optimization, the posterior of the objective function is often a Gaussian process (GP), whose sample paths have numerous local optima, making their global optimization challenging. In this work, we introduce an efficient global optimization strategy for GP-TS that carefully selects starting points for gradient-based multi-start optimizers. It identifies all local optima of the prior sample via univariate global rootfinding, and optimizes the posterior sample using a differentiable, decoupled representation. We demonstrate remarkable improvement in the global optimization of GP posterior samples, especially in high dimensions. This leads to dramatic improvements in the overall performance of Bayesian optimization using GP-TS acquisition functions, surprisingly outperforming alternatives like GP-UCB and EI.

arxiv情報

著者 Taiwo A. Adebiyi,Bach Do,Ruda Zhang
発行日 2024-10-10 16:06:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML | コメントする

Injective flows for star-like manifolds

要約

正規化フロー (NF) は、密度推定のための強力で効率的なモデルです。
多様体上の密度をモデル化する場合、NF は射出流れに一般化できますが、ヤコビアン行列式は計算的に法外なものになります。
現在のアプローチは、対数尤度の限界を考慮するか、ヤコビアン行列式の近似に依存するかのいずれかです。
対照的に、我々は星型多様体に対する射出流れを提案し、そのような多様体に対して、NF と同じコストでヤコビアン行列式を正確かつ効率的に計算できることを示します。
この側面は、利用可能なサンプルがなく、正規化されていないターゲットのみがわかっている変分推論設定に特に関連します。
多くの中でも、星状多様体におけるモデリング密度の関連性を 2 つの設定で紹介します。
まず、ペナルティのレベルセットをスター型多様体として解釈することにより、ペナルティ付き尤度モデルに対する新しい客観ベイジアン アプローチを導入します。
第二に、確率的混合モデルを考慮し、確率単体で混合重みの事後を定義することによる変分推論の一般的な方法を導入します。

要約(オリジナル)

Normalizing Flows (NFs) are powerful and efficient models for density estimation. When modeling densities on manifolds, NFs can be generalized to injective flows but the Jacobian determinant becomes computationally prohibitive. Current approaches either consider bounds on the log-likelihood or rely on some approximations of the Jacobian determinant. In contrast, we propose injective flows for star-like manifolds and show that for such manifolds we can compute the Jacobian determinant exactly and efficiently, with the same cost as NFs. This aspect is particularly relevant for variational inference settings, where no samples are available and only some unnormalized target is known. Among many, we showcase the relevance of modeling densities on star-like manifolds in two settings. Firstly, we introduce a novel Objective Bayesian approach for penalized likelihood models by interpreting level-sets of the penalty as star-like manifolds. Secondly, we consider probabilistic mixing models and introduce a general method for variational inference by defining the posterior of mixture weights on the probability simplex.

arxiv情報

著者 Marcello Massimo Negri,Jonathan Aellen,Volker Roth
発行日 2024-10-10 16:09:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | コメントする

Differentiability in Unrolled Training of Neural Physics Simulators on Transient Dynamics

要約

トレーニング軌跡を時間の経過とともに展開すると、ニューラル ネットワークで拡張された物理シミュレーターの推論精度に大きな影響を与えます。
私たちはこれをニューラル タイムステッパーのトレーニングの 3 つのバリエーションで分析します。
ワンステップのセットアップと完全に微分可能なアンローリングに加えて、あまり広くは使用されていない 3 番目のバリアントである時間勾配を使用しないアンローリングが含まれています。
これら 3 つのモダリティでトレーニングされたネットワークを比較すると、アンローリング、トレーニング分布シフト、長期勾配の 2 つの主要な効果が解きほぐされます。
物理システム、ネットワークのサイズとアーキテクチャ、トレーニングのセットアップ、テスト シナリオにわたる詳細な調査を示します。
また、2 つのシミュレーション モードも含まれています。 予測セットアップでは、ニューラル ネットワークのみに依存して軌道を計算します。
対照的に、補正セットアップには、ニューラル ネットワークによってサポートされる数値ソルバーが含まれています。
これらの変動にまたがる私たちの研究は、主な発見の経験的根拠を提供します。補正セットアップで数値ソルバーを使用した非微分可能だがアンロールされたトレーニングは、このソルバーを使用しない完全微分可能な予測セットアップと比べて大幅な改善をもたらす可能性があります。
完全微分可能な設定でトレーニングされたモデルの精度は、微分不可能な設定に比べて異なります。
微分可能なものは、補正ネットワーク間および予測セットアップ間での比較において最高のパフォーマンスを発揮します。
どちらの場合も、非微分可能アンローリングの精度はほぼ同じです。
さらに、これらの動作は物理システム、ネットワークのアーキテクチャとサイズ、数値スキームに対して不変であることを示します。
これらの結果は、完全な微分可能性が利用できない場合でも、非微分可能数値シミュレーターをトレーニング設定に統合する動機付けになります。
一般的なアーキテクチャの収束率は数値アルゴリズムと比較して低いことを示します。
これにより、神経部分と数値部分を組み合わせて、両方の利点を活用した補正セットアップが促進されます。

要約(オリジナル)

Unrolling training trajectories over time strongly influences the inference accuracy of neural network-augmented physics simulators. We analyze this in three variants of training neural time-steppers. In addition to one-step setups and fully differentiable unrolling, we include a third, less widely used variant: unrolling without temporal gradients. Comparing networks trained with these three modalities disentangles the two dominant effects of unrolling, training distribution shift and long-term gradients. We present detailed study across physical systems, network sizes and architectures, training setups, and test scenarios. It also encompasses two simulation modes: In prediction setups, we rely solely on neural networks to compute a trajectory. In contrast, correction setups include a numerical solver that is supported by a neural network. Spanning these variations, our study provides the empirical basis for our main findings: Non-differentiable but unrolled training with a numerical solver in a correction setup can yield substantial improvements over a fully differentiable prediction setup not utilizing this solver. The accuracy of models trained in a fully differentiable setup differs compared to their non-differentiable counterparts. Differentiable ones perform best in a comparison among correction networks as well as among prediction setups. For both, the accuracy of non-differentiable unrolling comes close. Furthermore, we show that these behaviors are invariant to the physical system, the network architecture and size, and the numerical scheme. These results motivate integrating non-differentiable numerical simulators into training setups even if full differentiability is unavailable. We show the convergence rate of common architectures to be low compared to numerical algorithms. This motivates correction setups combining neural and numerical parts which utilize benefits of both.

arxiv情報

著者 Bjoern List,Li-Wei Chen,Kartik Bali,Nils Thuerey
発行日 2024-10-10 16:27:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.comp-ph | コメントする

Noether’s razor: Learning Conserved Quantities

要約

対称性は機械学習モデルで有用であることが証明されており、一般化と全体的なパフォーマンスが向上します。
同時に、動的システムの学習における最近の進歩は、エネルギー保存を保証するための基礎となるハミルトニアンのモデル化に依存しています。
これらのアプローチは、数理物理学における独創的な結果、つまり力学系の対称性が保存された量に対応すると述べるネーターの定理を介して結び付けることができます。
この研究では、ネーターの定理を使用して、対称性を学習可能な保存量としてパラメーター化します。
次に、保存された量と関連する対称性を、通常のトレーニング手順と組み合わせて、近似ベイジアン モデルの選択を通じてトレーニング データから直接学習できるようにします。
トレーニングの目的として、限界尤度の変分下限を導出します。
この目標は、手動で正則化関数を追加したり調整したりする必要がなく、保存則が自明な定数に崩れることを回避するオッカムの剃刀効果を自動的に具体化します。
$n$-調和振動子と$n$-bodyシステムの原理証明を実証します。
私たちの方法は正しい保存量と U($n$) および SE($n$) 対称群を正確に識別し、テスト データの全体的なパフォーマンスと予測精度を向上させることがわかりました。

要約(オリジナル)

Symmetries have proven useful in machine learning models, improving generalisation and overall performance. At the same time, recent advancements in learning dynamical systems rely on modelling the underlying Hamiltonian to guarantee the conservation of energy. These approaches can be connected via a seminal result in mathematical physics: Noether’s theorem, which states that symmetries in a dynamical system correspond to conserved quantities. This work uses Noether’s theorem to parameterise symmetries as learnable conserved quantities. We then allow conserved quantities and associated symmetries to be learned directly from train data through approximate Bayesian model selection, jointly with the regular training procedure. As training objective, we derive a variational lower bound to the marginal likelihood. The objective automatically embodies an Occam’s Razor effect that avoids collapse of conservation laws to the trivial constant, without the need to manually add and tune additional regularisers. We demonstrate a proof-of-principle on $n$-harmonic oscillators and $n$-body systems. We find that our method correctly identifies the correct conserved quantities and U($n$) and SE($n$) symmetry groups, improving overall performance and predictive accuracy on test data.

arxiv情報

著者 Tycho F. A. van der Ouderaa,Mark van der Wilk,Pim de Haan
発行日 2024-10-10 16:29:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | コメントする

Positional Encoding Helps Recurrent Neural Networks Handle a Large Vocabulary

要約

この研究は、位置エンコーディングがリカレント ニューラル ネットワーク (RNN) の学習を強化するという直感的ではない発見を報告しています。
位置エンコーディングは、入力データの時間インデックスの高次元表現です。
最も有名なのは、位置エンコーディングが、データの順序を表現するための固有のメカニズムを欠いている Transformer ニューラル ネットワークの機能を補完することです。
対照的に、RNN はデータ ポイントの時間情報を独自にエンコードできるため、位置エンコーディングの使用は一見冗長/不必要に見えます。
それにもかかわらず、合成ベンチマークによる調査により、特に低頻度トークンを生成する大量の語彙を処理する場合に、位置エンコーディングと RNN を組み合わせる利点が明らかになりました。
さらに詳しく調べると、これらの低周波トークンがバニラ RNN の勾配を不安定にし、位置エンコーディングがこの不安定性を解決することが判明しました。
これらの結果は、トランスフォーマーのタイムキーパーとしての標準的な役割を超えた、位置エンコーディングの有用性に新たな光を当てています。

要約(オリジナル)

This study reports an unintuitive finding that positional encoding enhances learning of recurrent neural networks (RNNs). Positional encoding is a high-dimensional representation of time indices on input data. Most famously, positional encoding complements the capabilities of Transformer neural networks, which lack an inherent mechanism for representing the data order. By contrast, RNNs can encode the temporal information of data points on their own, rendering their use of positional encoding seemingly redundant/unnecessary. Nonetheless, investigations through synthetic benchmarks reveal an advantage of coupling positional encoding and RNNs, especially for handling a large vocabulary that yields low-frequency tokens. Further scrutinization unveils that these low-frequency tokens destabilizes the gradients of vanilla RNNs, and the positional encoding resolves this instability. These results shed a new light on the utility of positional encoding beyond its canonical role as a timekeeper for Transformers.

arxiv情報

著者 Takashi Morita
発行日 2024-10-10 16:40:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NE | コメントする

On Barycenter Computation: Semi-Unbalanced Optimal Transport-based Method on Gaussians

要約

我々は、半不平衡最適輸送(SUOT)ベースの重心と呼ばれる$n$中心のガウス確率尺度間の重心問題の堅牢なバージョンを探索します。重心は固定されたままですが、カルバック・ライブラー発散を使用して他の重心は緩和されます。
私たちは、正確な測地線勾配降下法およびハイブリッド勾配降下法アルゴリズムと呼ばれる、ビュレス・ワッサーシュタイン多様体に関する最適化アルゴリズムを開発します。
正確な測地線勾配降下法は、ビュレス多様体の測地線に沿った重心の目的関数の一次導関数の正確な閉形式の計算に基づいていますが、ハイブリッド勾配降下法は、SUOT 問題を解くときにオプティマイザー コンポーネントを利用します。
リーマン勾配降下法を適用する前に、外れ値の測定値を置き換えます。
両方の方法の理論的な収束保証を確立し、正確な測地線勾配降下法アルゴリズムが次元フリーの収束率を達成することを実証します。
最後に、正常なワッサーシュタイン重心と私たちの重心を比較する実験を行い、アブレーション研究を行います。

要約(オリジナル)

We explore a robust version of the barycenter problem among $n$ centered Gaussian probability measures, termed Semi-Unbalanced Optimal Transport (SUOT)-based Barycenter, wherein the barycenter remains fixed while the others are relaxed using Kullback-Leibler divergence. We develop optimization algorithms on Bures-Wasserstein manifold, named the Exact Geodesic Gradient Descent and Hybrid Gradient Descent algorithms. While the Exact Geodesic Gradient Descent method is based on computing the exact closed form of the first-order derivative of the objective function of the barycenter along a geodesic on the Bures manifold, the Hybrid Gradient Descent method utilizes optimizer components when solving the SUOT problem to replace outlier measures before applying the Riemannian Gradient Descent. We establish the theoretical convergence guarantees for both methods and demonstrate that the Exact Geodesic Gradient Descent algorithm attains a dimension-free convergence rate. Finally, we conduct experiments to compare the normal Wasserstein Barycenter with ours and perform an ablation study.

arxiv情報

著者 Ngoc-Hai Nguyen,Dung Le,Hoang-Phi Nguyen,Tung Pham,Nhat Ho
発行日 2024-10-10 17:01:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62-08, cs.LG, G.1.6 | コメントする

The Last Iterate Advantage: Empirical Auditing and Principled Heuristic Analysis of Differentially Private SGD

要約

我々は、最後の反復のみが解放され、中間の反復が非表示のままである設定における、ノイズを含むクリップされた確率的勾配降下法 (DP-SGD) の単純なヒューリスティック プライバシー分析を提案します。
つまり、私たちのヒューリスティックはモデルの線形構造を前提としています。
私たちは、ヒューリスティックがさまざまなトレーニング手順に適用されたプライバシー監査の結果を予測できることを実験的に示しています。
したがって、トレーニングの前に、最終的なプライバシー漏洩の大まかな推定値として使用できます。
また、プライバシー漏洩を過小評価するいくつかの人為的な反例を提供することで、ヒューリスティックの限界を調査します。
DP-SGD の標準的な構成ベースのプライバシー分析では、攻撃者がすべての中間反復にアクセスできることを事実上想定していますが、これは多くの場合非現実的です。
ただし、この分析は実際には依然として最先端です。
私たちのヒューリスティックは厳密なプライバシー分析に代わるものではありませんが、最良の理論上の上限とプライバシー監査の下限との間に大きなギャップがあることを示し、理論上のプライバシー分析を改善するためのさらなる作業の目標を設定します。
また、私たちは経験的にヒューリスティックをサポートしており、既存のプライバシー監査攻撃が視覚と言語の両方のタスクにおけるヒューリスティック分析によって制限されていることを示しています。

要約(オリジナル)

We propose a simple heuristic privacy analysis of noisy clipped stochastic gradient descent (DP-SGD) in the setting where only the last iterate is released and the intermediate iterates remain hidden. Namely, our heuristic assumes a linear structure for the model. We show experimentally that our heuristic is predictive of the outcome of privacy auditing applied to various training procedures. Thus it can be used prior to training as a rough estimate of the final privacy leakage. We also probe the limitations of our heuristic by providing some artificial counterexamples where it underestimates the privacy leakage. The standard composition-based privacy analysis of DP-SGD effectively assumes that the adversary has access to all intermediate iterates, which is often unrealistic. However, this analysis remains the state of the art in practice. While our heuristic does not replace a rigorous privacy analysis, it illustrates the large gap between the best theoretical upper bounds and the privacy auditing lower bounds and sets a target for further work to improve the theoretical privacy analyses. We also empirically support our heuristic and show existing privacy auditing attacks are bounded by our heuristic analysis in both vision and language tasks.

arxiv情報

著者 Thomas Steinke,Milad Nasr,Arun Ganesh,Borja Balle,Christopher A. Choquette-Choo,Matthew Jagielski,Jamie Hayes,Abhradeep Guha Thakurta,Adam Smith,Andreas Terzis
発行日 2024-10-10 17:06:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG | コメントする

Generalizing Stochastic Smoothing for Differentiation and Gradient Estimation

要約

アルゴリズム、演算子、シミュレーター、その他の微分不可能な関数の確率的微分可能緩和のための勾配推定の問題を扱います。
確率的平滑化は従来、完全なサポートを備えた微分可能な密度分布を持つ非微分可能関数の入力を摂動させ、それを平滑化し、勾配推定を可能にします。
私たちの理論は、微分可能な密度や完全なサポートを必要とせずに、仮定を減らして確率的平滑化を導出する第一原理から始まり、微分不可能なブラックボックス関数の緩和と勾配推定のための一般的なフレームワークを提示します $f:\mathbb{R}
^n\to\mathbb{R}^m$。
3 つの直交する観点から勾配推定のための分散削減を開発します。
経験的に、微分可能なソートとランキング、グラフ上の微分可能な最短経路、姿勢推定のための微分可能なレンダリング、微分可能なクライオ ET シミュレーションについて、6 つの分布と最大 24 の分散削減戦略をベンチマークします。

要約(オリジナル)

We deal with the problem of gradient estimation for stochastic differentiable relaxations of algorithms, operators, simulators, and other non-differentiable functions. Stochastic smoothing conventionally perturbs the input of a non-differentiable function with a differentiable density distribution with full support, smoothing it and enabling gradient estimation. Our theory starts at first principles to derive stochastic smoothing with reduced assumptions, without requiring a differentiable density nor full support, and we present a general framework for relaxation and gradient estimation of non-differentiable black-box functions $f:\mathbb{R}^n\to\mathbb{R}^m$. We develop variance reduction for gradient estimation from 3 orthogonal perspectives. Empirically, we benchmark 6 distributions and up to 24 variance reduction strategies for differentiable sorting and ranking, differentiable shortest-paths on graphs, differentiable rendering for pose estimation, as well as differentiable cryo-ET simulations.

arxiv情報

著者 Felix Petersen,Christian Borgelt,Aashwin Mishra,Stefano Ermon
発行日 2024-10-10 17:10:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | コメントする

Deconstructing equivariant representations in molecular systems

要約

最近の等変モデルは、化学的特性の予測だけでなく、分子や材料の動的シミュレーションの代用としても大きな進歩を示しています。
このカテゴリで最高のパフォーマンスを発揮するモデルの多くは、相互作用と変換を対称選択ルールで許可されるものに制限することで等分散性を維持するテンソル積のフレームワーク内で構築されています。
モデリング プロセスの中核部分であるにもかかわらず、これらの等変表現にどのような情報が保持されているか、およびベンチマーク メトリクス以外の一般的な動作を理解することにはまだあまり注目されていません。
この研究では、QM9 データセット上の単純な等変グラフ畳み込みモデルを使用した一連の実験について報告し、定量的パフォーマンスと結果として得られる分子グラフ埋め込みの相関関係に焦点を当てます。
私たちの重要な発見は、スカラー予測タスクの場合、既約表現の多く、特にベクトル ($l=1$) とテンソル量 ($l=2$) に関連する表現がトレーニング中に単に無視されることが問題であるということです。
それは必ずしもテスト指標で明らかになるわけではありません。
球面調和関数の未使用の次数をいくつか削除すると、潜在空間構造の改善と相関して、モデルのパフォーマンスが向上することが経験的に示されています。
これらの観察に基づいて、同等の特徴の効率と利用を改善するために、将来の実験のために多くの推奨事項を提供します。

要約(オリジナル)

Recent equivariant models have shown significant progress in not just chemical property prediction, but as surrogates for dynamical simulations of molecules and materials. Many of the top performing models in this category are built within the framework of tensor products, which preserves equivariance by restricting interactions and transformations to those that are allowed by symmetry selection rules. Despite being a core part of the modeling process, there has not yet been much attention into understanding what information persists in these equivariant representations, and their general behavior outside of benchmark metrics. In this work, we report on a set of experiments using a simple equivariant graph convolution model on the QM9 dataset, focusing on correlating quantitative performance with the resulting molecular graph embeddings. Our key finding is that, for a scalar prediction task, many of the irreducible representations are simply ignored during training — specifically those pertaining to vector ($l=1$) and tensor quantities ($l=2$) — an issue that does not necessarily make itself evident in the test metric. We empirically show that removing some unused orders of spherical harmonics improves model performance, correlating with improved latent space structure. We provide a number of recommendations for future experiments to try and improve efficiency and utilization of equivariant features based on these observations.

arxiv情報

著者 Kin Long Kelvin Lee,Mikhail Galkin,Santiago Miret
発行日 2024-10-10 17:15:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.LG, physics.chem-ph | コメントする

Control, Transport and Sampling: Towards Better Loss Design

要約

拡散ベースのサンプリング、最適輸送、およびシュオーディンガー橋問題への共有リンクを介した確率的最適制御の間の接続を活用して、$\nu$ を $\mu$ に輸送するために使用できる新しい目的関数を提案します。
最適に制御されたダイナミクスを介して、ターゲット $\mu$ からサンプルを取得します。
パスごとの視点の重要性と、パス測定におけるさまざまな最適性条件が有効なトレーニング損失の設計に果たせる役割、およびそれらを慎重に選択することで実装時に数値上の利点がもたらされることを強調します。
Schr\’odinger ブリッジの形式主義に基づくと、ニューラル ネットワークのトレーニングに関して、帰納的バイアスを焼き込む実用的な機能が追加されます。

要約(オリジナル)

Leveraging connections between diffusion-based sampling, optimal transport, and stochastic optimal control through their shared links to the Schr\’odinger bridge problem, we propose novel objective functions that can be used to transport $\nu$ to $\mu$, consequently sample from the target $\mu$, via optimally controlled dynamics. We highlight the importance of the pathwise perspective and the role various optimality conditions on the path measure can play for the design of valid training losses, the careful choice of which offer numerical advantages in implementation. Basing the formalism on Schr\’odinger bridge comes with the additional practical capability of baking in inductive bias when it comes to Neural Network training.

arxiv情報

著者 Qijia Jiang,David Nabergoj
発行日 2024-10-10 17:16:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.CO, stat.ML | コメントする