Leveraging Demonstrations to Improve Online Learning: Quality Matters

要約

私たちは、オフラインのデモンストレーション データがオンライン学習をどの程度改善できるかを調査します。
ある程度の改善が期待されるのは当然ですが、問題はどのように、どの程度改善されるかです。
改善の程度は実証データの品質に依存するはずであることを示します。
ポータブルな洞察を生成するために、プロトタイプのオンライン学習アルゴリズムおよびモデルとして多腕バンディットに適用されるトンプソン サンプリング (TS) に焦点を当てます。
デモンストレーション データは、特定の能力レベルを持つ専門家によって生成されます。これは、当社が導入する概念です。
我々は、ベイズ則を通じて一貫した方法で実証データを利用し、事前依存ベイジアンリグレス限界を導出する、情報に基づいた TS アルゴリズムを提案します。
これにより、事前トレーニングによってオンライン パフォーマンスがどのように大幅に向上するか、また専門家の能力レベルに応じて改善の度合いがどのように高まるかについての洞察が得られます。
また、ベイジアン ブートストラップを通じて実用的な近似情報に基づいた TS アルゴリズムを開発し、実験を通じて大幅な経験的後悔の削減を示します。

要約(オリジナル)

We investigate the extent to which offline demonstration data can improve online learning. It is natural to expect some improvement, but the question is how, and by how much? We show that the degree of improvement must depend on the quality of the demonstration data. To generate portable insights, we focus on Thompson sampling (TS) applied to a multi-armed bandit as a prototypical online learning algorithm and model. The demonstration data is generated by an expert with a given competence level, a notion we introduce. We propose an informed TS algorithm that utilizes the demonstration data in a coherent way through Bayes’ rule and derive a prior-dependent Bayesian regret bound. This offers insight into how pretraining can greatly improve online performance and how the degree of improvement increases with the expert’s competence level. We also develop a practical, approximate informed TS algorithm through Bayesian bootstrapping and show substantial empirical regret reduction through experiments.

arxiv情報

著者 Botao Hao,Rahul Jain,Tor Lattimore,Benjamin Van Roy,Zheng Wen
発行日 2023-05-16 16:46:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ML, stat.TH パーマリンク