要約
学習者が共通のアルファベット $\mathcal X$ 上に定義された未知の離散分布 $(p_k)_{k\in \mathcal K}$ に直面し、各分布 $p_k$ に対して個人を構築できる状況を考えます。
$p_k$ からサンプリングされた $n_k$ 観測値のおかげで設定された高確率の信頼度。
集合 $(p_k)_{k\in \mathcal K}$ は構造化されています。各分布 $p_k$ は、未知の順列を $\mathcal X$ に適用することによって、同じ共通だが未知の分布 q から取得されます。
これを \emph{置換等価性} と呼びます。
目標は、この構造特性を \emph{活用}して洗練された信頼セットを構築することです。
構造に関する他の一般的な概念 (リプシッツの平滑性、線形性など) と同様に、順列等価性は機械学習の問題に自然に現れ、その潜在的な利益を活用するには、特定のアプローチが必要です。
置換等価性を効果的に利用する戦略を提示し、この戦略によって出力される洗練された信頼セットのサイズに有限時間の高確率限界を提供します。
一般に観測値が少なすぎると改良は不可能であるため、緩やかな技術的仮定の下では、観測値 $(n_k)_{k\in \mathcal K}$ が十分に大きい場合に有限時間解析が確立され、出力が
信頼セットは、最初の個々のセットよりも改善されます。
私たちはこの出来事とそれに伴う改善を注意深く特徴付けています。
さらに、この結果は、信頼集合のサイズが $O(1/\sqrt{\sum_{k\in \mathcal K} n_k})$ および $O(1/\max_{k\in) の漸近率で縮小することを意味します。
個々の信頼セットのサイズが $O(1/\sqrt{n_k})$ と $O(1
/n_k)$。
強化学習タスクで置換等価性を利用する実際的な利点を説明します。
要約(オリジナル)
We consider the situation when a learner faces a set of unknown discrete distributions $(p_k)_{k\in \mathcal K}$ defined over a common alphabet $\mathcal X$, and can build for each distribution $p_k$ an individual high-probability confidence set thanks to $n_k$ observations sampled from $p_k$. The set $(p_k)_{k\in \mathcal K}$ is structured: each distribution $p_k$ is obtained from the same common, but unknown, distribution q via applying an unknown permutation to $\mathcal X$. We call this \emph{permutation-equivalence}. The goal is to build refined confidence sets \emph{exploiting} this structural property. Like other popular notions of structure (Lipschitz smoothness, Linearity, etc.) permutation-equivalence naturally appears in machine learning problems, and to benefit from its potential gain calls for a specific approach. We present a strategy to effectively exploit permutation-equivalence, and provide a finite-time high-probability bound on the size of the refined confidence sets output by the strategy. Since a refinement is not possible for too few observations in general, under mild technical assumptions, our finite-time analysis establish when the number of observations $(n_k)_{k\in \mathcal K}$ are large enough so that the output confidence sets improve over initial individual sets. We carefully characterize this event and the corresponding improvement. Further, our result implies that the size of confidence sets shrink at asymptotic rates of $O(1/\sqrt{\sum_{k\in \mathcal K} n_k})$ and $O(1/\max_{k\in K} n_{k})$, respectively for elements inside and outside the support of q, when the size of each individual confidence set shrinks at respective rates of $O(1/\sqrt{n_k})$ and $O(1/n_k)$. We illustrate the practical benefit of exploiting permutation equivalence on a reinforcement learning task.
arxiv情報
著者 | Odalric-Ambrym Maillard,Mohammad Sadegh Talebi |
発行日 | 2024-07-22 14:19:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google