要約
制約されたオンライン凸最適化(COCO)は、標準のオンライン凸最適化(OCO)フレームワークの一般化と見なすことができます。
各ラウンドで、学習者がアクションを選択した後にコスト関数と制約機能が明らかになります。
目標は、適応敵に対する後悔と累積制約違反(CCV)の両方を最小限に抑えることです。
後悔とCCVの両方で最適な$ o(\ sqrt {t})$ boundを得ることができることを初めて示します。
要約(オリジナル)
Constrained Online Convex Optimization (COCO) can be seen as a generalization of the standard Online Convex Optimization (OCO) framework. At each round, a cost function and constraint function are revealed after a learner chooses an action. The goal is to minimize both the regret and cumulative constraint violation (CCV) against an adaptive adversary. We show for the first time that is possible to obtain the optimal $O(\sqrt{T})$ bound on both regret and CCV, improving the best known bounds of $O \left( \sqrt{T} \right)$ and $\~{O} \left( \sqrt{T} \right)$ for the regret and CCV, respectively.
arxiv情報
著者 | Ricardo N. Ferreira,Cláudia Soares |
発行日 | 2025-03-17 16:51:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google