Learning to Stop: Deep Learning for Mean Field Optimal Stopping

要約

最適な停止は、リスク管理、金融、ロボット工学、および機械学習のアプリケーションを伴う最適化における根本的な問題です。
マルチエージェント最適停止(MAO)という名前のマルチエージェント設定に標準フレームワークを拡張します。エージェントは、有限空間の個別の時間環境で最適な停止決定を行うために協力します。
エージェントの数が非常に多いため、MAOSの解決は計算上法外になるようになるため、エージェントの数が無限になる傾向があるために得られる平均フィールド最適停止(MFOS)問題を研究します。
MFOSがMAOSに適切な近似を提供し、平均フィールド制御理論に基づいて動的なプログラミング原理(DPP)を証明することを確立します。
次に、2つの深い学習アプローチを提案します。1つは完全な軌跡をシミュレートすることにより最適な停止決定を学習し、もう1つはDPPを活用して値関数を計算し、後方誘導を使用して最適な停止ルールを学習することです。
どちらの方法でも、最適な停止ポリシーを近似するためにニューラルネットワークを訓練します。
私たちは、300までの空間的次元の6つの異なる問題に関する数値実験を通じて、私たちの作業の有効性とスケーラビリティを示します。私たちの知る限り、これは個別の時間と有限空間でMFOを形式化して計算するための最初の作業であり、スケーラブルなMAOSメソッドの新しい方向を開きます。

要約(オリジナル)

Optimal stopping is a fundamental problem in optimization with applications in risk management, finance, robotics, and machine learning. We extend the standard framework to a multi-agent setting, named multi-agent optimal stopping (MAOS), where agents cooperate to make optimal stopping decisions in a finite-space, discrete-time environment. Since solving MAOS becomes computationally prohibitive as the number of agents is very large, we study the mean-field optimal stopping (MFOS) problem, obtained as the number of agents tends to infinity. We establish that MFOS provides a good approximation to MAOS and prove a dynamic programming principle (DPP) based on mean-field control theory. We then propose two deep learning approaches: one that learns optimal stopping decisions by simulating full trajectories and another that leverages the DPP to compute the value function and to learn the optimal stopping rule using backward induction. Both methods train neural networks to approximate optimal stopping policies. We demonstrate the effectiveness and the scalability of our work through numerical experiments on 6 different problems in spatial dimension up to 300. To the best of our knowledge, this is the first work to formalize and computationally solve MFOS in discrete time and finite space, opening new directions for scalable MAOS methods.

arxiv情報

著者 Lorenzo Magnino,Yuchen Zhu,Mathieu Laurière
発行日 2025-06-09 16:11:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク