Gradient Estimation and Variance Reduction in Stochastic and Deterministic Models

要約

現在の時代では、コンピューター、計算、データが科学の研究と発見において果たす役割がますます重要になっているようです。
これは、機械学習と人工知能の台頭によって部分的に反映されており、これらはコンピューター サイエンスだけでなく、他の多くの研究分野にとっても大きな関心分野となっています。
より一般的には、より大規模で、より複雑で、より大容量のモデルを使用する傾向があります。
また、確率モデル、および既存の決定論的モデルの確率的変形は、さまざまな分野で重要な研究方向になっているようです。
これらのタイプのモデルすべてにおいて、勾配ベースの最適化がモデルのフィッティングや制御などの主要なパラダイムとして残っています。
この論文では、そのような問題の解決を可能にする重要な量である勾配自体に焦点を当てて、制約のない非線形の最適化問題を考察します。
第 1 章では、勾配の効率的な計算を可能にする一連のテクニックを説明する用語である逆微分の概念を紹介します。
決定論的ケースと確率論的ケースの両方で関連するテクニックを取り上げます。
決定論的要素と確率的要素の両方を含む問題の勾配を計算するための新しいフレームワークを提案します。
第 2 章では、最適化アルゴリズムの収束証明で通常想定される特性に焦点を当てて、勾配推定器の特性を分析します。
第 3 章では、新しい勾配推定器を適用するさまざまな例を示します。
さらに、区分的連続モデル、つまり、個別の分岐と、どの特定の分岐を使用するかを定義する if ステートメントを持つモデルを使用するというアイデアを検討します。

要約(オリジナル)

It seems that in the current age, computers, computation, and data have an increasingly important role to play in scientific research and discovery. This is reflected in part by the rise of machine learning and artificial intelligence, which have become great areas of interest not just for computer science but also for many other fields of study. More generally, there have been trends moving towards the use of bigger, more complex and higher capacity models. It also seems that stochastic models, and stochastic variants of existing deterministic models, have become important research directions in various fields. For all of these types of models, gradient-based optimization remains as the dominant paradigm for model fitting, control, and more. This dissertation considers unconstrained, nonlinear optimization problems, with a focus on the gradient itself, that key quantity which enables the solution of such problems. In chapter 1, we introduce the notion of reverse differentiation, a term which describes the body of techniques which enables the efficient computation of gradients. We cover relevant techniques both in the deterministic and stochastic cases. We present a new framework for calculating the gradient of problems which involve both deterministic and stochastic elements. In chapter 2, we analyze the properties of the gradient estimator, with a focus on those properties which are typically assumed in convergence proofs of optimization algorithms. Chapter 3 gives various examples of applying our new gradient estimator. We further explore the idea of working with piecewise continuous models, that is, models with distinct branches and if statements which define what specific branch to use.

arxiv情報

著者 Ronan Keane
発行日 2024-05-14 14:41:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY, math.OC パーマリンク