Invariant Lipschitz Bandits: A Side Observation Approach




– 対称性は、最適化や意思決定の問題に多く現れ、最適解を探索するためにそのような対称性を利用することで、重要な問題を改善できることがある。
– 対称性はオフライン最適化で成功を収めたが、オンライン最適化ではあまり研究されていない。特に、バンディット理論ではあまり研究されていない。
– この研究では、不変リプシッツバンディット設定を研究し、報酬関数とアームセットが変換群に保存されるLipschitzバンディットのサブクラスを導入する。
– \texttt {UniformMesh-N}というアルゴリズムを紹介し、副観察をグループ軌道に自然に統合する。このアルゴリズムは、アームセットを一様に離散化する\texttt{UniformMesh}アルゴリズムを改良する。
– 副観測的アプローチを使用することで、グループが有限である場合、グループの濃度に依存する改善された後悔上限を証明する。また、変換群が有限である場合、不変リプシッツバンディットクラスの一致する後悔の下限も証明する。
– 我々は、この研究が、バンディット理論や順次決定理論における対称性の研究をさらに促進することを期待しています。


Symmetry arises in many optimization and decision-making problems, and has attracted considerable attention from the optimization community: By utilizing the existence of such symmetries, the process of searching for optimal solutions can be improved significantly. Despite its success in (offline) optimization, the utilization of symmetries has not been well examined within the online optimization settings, especially in the bandit literature. As such, in this paper we study the invariant Lipschitz bandit setting, a subclass of the Lipschitz bandits where the reward function and the set of arms are preserved under a group of transformations. We introduce an algorithm named \texttt{UniformMesh-N}, which naturally integrates side observations using group orbits into the \texttt{UniformMesh} algorithm (\cite{Kleinberg2005_UniformMesh}), which uniformly discretizes the set of arms. Using the side-observation approach, we prove an improved regret upper bound, which depends on the cardinality of the group, given that the group is finite. We also prove a matching regret’s lower bound for the invariant Lipschitz bandit class (up to logarithmic factors). We hope that our work will ignite further investigation of symmetry in bandit theory and sequential decision-making theory in general.


著者 Nam Phuong Tran,Long Tran-Thanh
発行日 2023-04-25 11:27:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.LG, stat.ML パーマリンク