Multitask Learning and Bandits via Robust Statistics

要約

意思決定者は多くの場合、関連するが異質な多くの学習問題に同時に直面します。
たとえば、大規模な小売業者は、価格設定や在庫の問題を解決するために、さまざまな店舗の製品需要を学習したい場合があり、同様の顧客にサービスを提供する店舗を共同で学習することが望ましい場合があります。
あるいは、病院ネットワークは、個別化された介入を割り当てるために、さまざまな医療提供者の患者リスクを学習したい場合があり、同様の患者集団を治療する病院が共同で学習することが望ましい場合もあります。
実際のデータセットを動機として、各学習インスタンスの未知のパラメーターが共有グローバル パラメーターとまばらなインスタンス固有の項に分解できる自然環境を研究します。
我々は、ロバストな統計 (類似したインスタンス間で学習するため) と LASSO 回帰 (結果の偏りを取り除くため) の独自の組み合わせを使用して、サンプル効率の高い方法でこの構造を利用する、新しい 2 段階のマルチタスク学習推定器を提案します。
私たちの推定器は、一般的に使用されている推定器と比較して、特徴次元 $d$ のサンプル複雑さの限界が改善されています。
この改善は、マルチタスク学習から最も恩恵を受ける「データの少ない」インスタンスでは指数関数的です。
同時コンテキストバンディットアルゴリズム内にマルチタスク推定器を埋め込むことにより、オンライン学習におけるこれらの結果の有用性を説明します。
時間の経過に伴うバイアスと分散のトレードオフのバランスを適切に保つために、推定量の動的キャリブレーションを指定し、コンテキスト ディメンション $d$ で結果として得られるリグレス限界を改善します。
最後に、合成データセットと実際のデータセットに対するアプローチの価値を説明します。

要約(オリジナル)

Decision-makers often simultaneously face many related but heterogeneous learning problems. For instance, a large retailer may wish to learn product demand at different stores to solve pricing or inventory problems, making it desirable to learn jointly for stores serving similar customers; alternatively, a hospital network may wish to learn patient risk at different providers to allocate personalized interventions, making it desirable to learn jointly for hospitals serving similar patient populations. Motivated by real datasets, we study a natural setting where the unknown parameter in each learning instance can be decomposed into a shared global parameter plus a sparse instance-specific term. We propose a novel two-stage multitask learning estimator that exploits this structure in a sample-efficient way, using a unique combination of robust statistics (to learn across similar instances) and LASSO regression (to debias the results). Our estimator yields improved sample complexity bounds in the feature dimension $d$ relative to commonly-employed estimators; this improvement is exponential for ‘data-poor’ instances, which benefit the most from multitask learning. We illustrate the utility of these results for online learning by embedding our multitask estimator within simultaneous contextual bandit algorithms. We specify a dynamic calibration of our estimator to appropriately balance the bias-variance tradeoff over time, improving the resulting regret bounds in the context dimension $d$. Finally, we illustrate the value of our approach on synthetic and real datasets.

arxiv情報

著者 Kan Xu,Hamsa Bastani
発行日 2023-06-08 16:51:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ML, stat.TH パーマリンク