要約
基本ランダム ベクトルの非線形関数の期待値と、基本ランダム ベクトル、従属ランダム ベクトル、および決定変数に応じた別の関数の条件付き期待値を含む確率的最適化問題を検討します。
このような問題を条件付き確率最適化問題と呼びます。
これらは、隆起モデリング、強化学習、コンテキスト最適化などの多くのアプリケーションで発生します。
我々は、リプシッツの滑らかな外部関数と一般化された微分可能な内部関数を使用した、非凸制約条件付き確率的最適化問題に対する特殊な単一タイムスケールの確率的手法を提案します。
この方法では、平均二乗誤差が {\L}ojasiewicz 条件の確率的バージョンを満たす豊富なパラメトリック モデルを使用して、内部条件付き期待値を近似します。
モデルは内部学習アルゴリズムによって使用されます。
私たちのアプローチの主な特徴は、この方法で使用される方向の不偏確率推定が反復ごとに結合分布から 1 つの観測値で生成できるため、リアルタイム学習に適用できることです。
ただし、方向は、全体的な目的関数の勾配または部分勾配ではありません。
ブレグマン距離の確率的一般化を伴う微分包含法と特別に設計されたリアプノフ関数を使用して、確率 1 でこの方法が収束することを証明します。
最後に、数値図で私たちのアプローチの実現可能性を示します。
要約(オリジナル)
We consider stochastic optimization problems involving an expected value of a nonlinear function of a base random vector and a conditional expectation of another function depending on the base random vector, a dependent random vector, and the decision variables. We call such problems conditional stochastic optimization problems. They arise in many applications, such as uplift modeling, reinforcement learning, and contextual optimization. We propose a specialized single time-scale stochastic method for nonconvex constrained conditional stochastic optimization problems with a Lipschitz smooth outer function and a generalized differentiable inner function. In the method, we approximate the inner conditional expectation with a rich parametric model whose mean squared error satisfies a stochastic version of a {\L}ojasiewicz condition. The model is used by an inner learning algorithm. The main feature of our approach is that unbiased stochastic estimates of the directions used by the method can be generated with one observation from the joint distribution per iteration, which makes it applicable to real-time learning. The directions, however, are not gradients or subgradients of any overall objective function. We prove the convergence of the method with probability one, using the method of differential inclusions and a specially designed Lyapunov function, involving a stochastic generalization of the Bregman distance. Finally, a numerical illustration demonstrates the viability of our approach.
arxiv情報
著者 | Andrzej Ruszczyński,Shangzhe Yang |
発行日 | 2024-05-17 14:35:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google