Lifelong Bandit Optimization: No Prior and No Regret

要約

機械学習アルゴリズムは、同様の構造を持つ問題に何度も繰り返し適用されることがよくあります。
私たちは一連のバンディット最適化タスクを解決することに重点を置き、過去の経験から学習することで環境に適応し、プロセスのサンプル効率を高めるアルゴリズムである LIBO を開発します。
カーネルは不明だがすべてのタスクで共有されるカーネル化された構造を想定しています。
LIBO は、真のカーネルに近似するカーネルを順次メタ学習し、最新のカーネル推定値を使用して受信タスクを解決します。
私たちのアルゴリズムは、任意のカーネル化または線形バンディット アルゴリズムと組み合わせることができ、オラクルの最適なパフォーマンスを保証します。つまり、より多くのタスクが解決されるにつれて、各タスクに対する LIBO のリグレスは、真のカーネルに関するオラクルの知識を備えたバンディット アルゴリズムのリグレスに収束します。
当然のことながら、サブリニア バンディット アルゴリズムと組み合わせると、LIBO はサブリニアの生涯にわたる後悔をもたらします。
また、サブリニアリ後悔を達成するために、各タスクからデータに直接アクセスする必要はないことも示します。
私たちは、生涯にわたる課題を連携して解決するF-LIBOを提案します。

要約(オリジナル)

Machine learning algorithms are often repeatedly applied to problems with similar structure over and over again. We focus on solving a sequence of bandit optimization tasks and develop LIBO, an algorithm which adapts to the environment by learning from past experience and becomes more sample-efficient in the process. We assume a kernelized structure where the kernel is unknown but shared across all tasks. LIBO sequentially meta-learns a kernel that approximates the true kernel and solves the incoming tasks with the latest kernel estimate. Our algorithm can be paired with any kernelized or linear bandit algorithm and guarantees oracle optimal performance, meaning that as more tasks are solved, the regret of LIBO on each task converges to the regret of the bandit algorithm with oracle knowledge of the true kernel. Naturally, if paired with a sublinear bandit algorithm, LIBO yields a sublinear lifelong regret. We also show that direct access to the data from each task is not necessary for attaining sublinear regret. We propose F-LIBO, which solves the lifelong problem in a federated manner.

arxiv情報

著者 Felix Schur,Parnian Kassraie,Jonas Rothfuss,Andreas Krause
発行日 2023-06-20 08:55:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク