要約
オンラインでの意思決定における後悔を最小限に抑えるアルゴリズムの設計においては大きな進歩が見られましたが、現実世界のシナリオではさらなる複雑さが導入されることが多く、おそらく最も困難なのは結果が得られないことです。
この側面を見落としたり、単純にランダムな欠損を仮定したりすると、常に報酬の推定に偏りが生じ、直線的な後悔が生じる可能性があります。
この課題の実際的な関連性にもかかわらず、特に欠落メカニズムがランダムではない場合、欠落を体系的に処理するための厳密な方法論は現在存在しません。
この論文では、達成可能なリグレス限界に対するさまざまな欠損メカニズムの影響を分析することにより、欠損結果を伴う多腕バンディット(MAB)のコンテキストにおけるこのギャップに対処します。
ランダム欠損 (MAR) モデルとランダムではない欠損 (MNAR) モデルの両方で欠損を説明するアルゴリズムを導入します。
分析研究とシミュレーション研究の両方を通じて、これらの設定の欠落を考慮することで意思決定が大幅に改善されることを実証しました。
要約(オリジナル)
While significant progress has been made in designing algorithms that minimize regret in online decision-making, real-world scenarios often introduce additional complexities, perhaps the most challenging of which is missing outcomes. Overlooking this aspect or simply assuming random missingness invariably leads to biased estimates of the rewards and may result in linear regret. Despite the practical relevance of this challenge, no rigorous methodology currently exists for systematically handling missingness, especially when the missingness mechanism is not random. In this paper, we address this gap in the context of multi-armed bandits (MAB) with missing outcomes by analyzing the impact of different missingness mechanisms on achievable regret bounds. We introduce algorithms that account for missingness under both missing at random (MAR) and missing not at random (MNAR) models. Through both analytical and simulation studies, we demonstrate the drastic improvements in decision-making by accounting for missingness in these settings.
arxiv情報
| 著者 | Ilia Mahrooghi,Mahshad Moradi,Sina Akbari,Negar Kiyavash |
| 発行日 | 2024-11-08 16:02:39+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google