Stochastic Optimal Control Matching

要約

確率的最適制御は、ノイズの多いシステムの振る舞いを制御することを目的としており、科学、工学、人工知能の分野で広く応用されている。我々の研究は、確率的最適制御のための新しい反復拡散最適化(IDO)技術である確率的最適制御マッチング(SOCM)を紹介する。すなわち、制御は、マッチングベクトル場の適合を試みることにより、最小二乗問題を介して学習される。クロスエントロピー損失と密接な関係にある学習損失は、制御関数と、マッチングベクトル場に現れる再パラメータ化行列のファミリーの両方に関して最適化される。再パラメータ化行列に関する最適化は、マッチングベクトル場の分散を最小化することを目的とする。実験的に、本アルゴリズムは、4つの異なる制御設定において、確率的最適制御のための既存のIDO技術よりも低い誤差を達成した。SOCMの基礎となる重要な考え方は、経路ごとの再パラメータ化のトリックであり、これは、例えば、生成モデリングにおいて、独立に興味を持たれている新しい技法である。

要約(オリジナル)

Stochastic optimal control, which has the goal of driving the behavior of noisy systems, is broadly applicable in science, engineering and artificial intelligence. Our work introduces Stochastic Optimal Control Matching (SOCM), a novel Iterative Diffusion Optimization (IDO) technique for stochastic optimal control that stems from the same philosophy as the conditional score matching loss for diffusion models. That is, the control is learned via a least squares problem by trying to fit a matching vector field. The training loss, which is closely connected to the cross-entropy loss, is optimized with respect to both the control function and a family of reparameterization matrices which appear in the matching vector field. The optimization with respect to the reparameterization matrices aims at minimizing the variance of the matching vector field. Experimentally, our algorithm achieves lower error than all the existing IDO techniques for stochastic optimal control for four different control settings. The key idea underlying SOCM is the path-wise reparameterization trick, a novel technique that is of independent interest, e.g., for generative modeling.

arxiv情報

著者 Carles Domingo-Enrich,Jiequn Han,Brandon Amos,Joan Bruna,Ricky T. Q. Chen
発行日 2023-12-04 16:49:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.NA, math.NA, math.OC, math.PR, stat.ML パーマリンク