Minimax-optimal trust-aware multi-armed bandits

要約

マルチアームドバンディット(MAB)アルゴリズムは、人間が推奨された方針を完璧に実行するという前提の下、逐次意思決定アプリケーションにおいて大きな成功を収めてきた。しかし、既存の手法は、学習アルゴリズムにおける人間の信頼という重要な要素を見落としていることが多い。信頼が欠如している場合、人間は推奨された方針から逸脱する可能性があり、望ましくない学習性能につながる。このギャップに動機づけられ、我々は標準的なMABフレームワークに動的信頼モデルを統合することで、信頼を考慮したMAB問題を研究する。具体的には、人間の信頼によって、推奨される政策と実際に実行される政策が異なることを仮定し、その信頼は推奨される政策の質によって変化する。我々は、信頼問題が存在する場合の最小後悔を確立し、上方信頼境界(UCB)アルゴリズムのような従来のMABアルゴリズムの最適性を実証する。この限界を克服するために、統計的に最適に近い保証を証明的に達成する、新しい2段階の信頼考慮手続きを導入する。シミュレーションにより、信頼問題に対処する際の提案アルゴリズムの利点を示す。

要約(オリジナル)

Multi-armed bandit (MAB) algorithms have achieved significant success in sequential decision-making applications, under the premise that humans perfectly implement the recommended policy. However, existing methods often overlook the crucial factor of human trust in learning algorithms. When trust is lacking, humans may deviate from the recommended policy, leading to undesired learning performance. Motivated by this gap, we study the trust-aware MAB problem by integrating a dynamic trust model into the standard MAB framework. Specifically, it assumes that the recommended and actually implemented policy differs depending on human trust, which in turn evolves with the quality of the recommended policy. We establish the minimax regret in the presence of the trust issue and demonstrate the suboptimality of vanilla MAB algorithms such as the upper confidence bound (UCB) algorithm. To overcome this limitation, we introduce a novel two-stage trust-aware procedure that provably attains near-optimal statistical guarantees. A simulation study is conducted to illustrate the benefits of our proposed algorithm when dealing with the trust issue.

arxiv情報

著者 Changxiao Cai,Jiacheng Zhang
発行日 2024-10-04 17:55:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, math.ST, stat.ME, stat.ML, stat.TH パーマリンク