Truthful mechanisms for linear bandit games with private contexts

要約

エージェントが個人的なコンテキストを持って順番に到着し、システムがそれに応じてアーム割り当ての決定を適応させるコンテキスト バンディット問題は、よりパーソナライズされた結果を可能にするものとして、最近ますます注目を集めています。
ただし、多くのヘルスケアおよび推奨アプリケーションでは、エージェントはプライベート プロファイルを持っており、システムから取得するためにコンテキストを誤って報告する可能性があります。
たとえば、適応型臨床試験では、病院が複数の新しい治療法をテストし、ボランティアが報告した症状や中間データなどのプロファイルに基づいて計画を調整するためにボランティアを順次募集するが、参加者は次善の治療法を回避するために、アレルギーや吐き気などの重篤な副作用を誤って報告する可能性がある。
私たちは、システムと非反復エージェント間の確率的コンテキストバンディットゲームにおけるプライベートコンテキストの誤った報告の問題を初めて研究しました。
UCB ファミリー アルゴリズムやトンプソン サンプリングなどの従来の低リグレット アルゴリズムでは、真実のレポートを保証できず、最悪の場合、直線的なリグレットが発生する可能性があるのに対し、Explorer-then-commit (ETC) や $\ などの従来の真実のアルゴリズムでは問題が発生する可能性があることを示します。
epsilon$-greedy アルゴリズムは線形未満ではあるものの、大きな後悔を引き起こします。
私たちは、トンプソンサンプリングからの逸脱を最小限に抑えながら、線形プログラムを使用して真実性を保証し、$O(\ln T)$ 頻度主義者の後悔を生み出すメカニズムを提案します。
私たちの数値実験では、複数のコンテキストや他のディストリビューション ファミリ全体で強力なパフォーマンスが実証されています。

要約(オリジナル)

The contextual bandit problem, where agents arrive sequentially with personal contexts and the system adapts its arm allocation decisions accordingly, has recently garnered increasing attention for enabling more personalized outcomes. However, in many healthcare and recommendation applications, agents have private profiles and may misreport their contexts to gain from the system. For example, in adaptive clinical trials, where hospitals sequentially recruit volunteers to test multiple new treatments and adjust plans based on volunteers’ reported profiles such as symptoms and interim data, participants may misreport severe side effects like allergy and nausea to avoid perceived suboptimal treatments. We are the first to study this issue of private context misreporting in a stochastic contextual bandit game between the system and non-repeated agents. We show that traditional low-regret algorithms, such as UCB family algorithms and Thompson sampling, fail to ensure truthful reporting and can result in linear regret in the worst case, while traditional truthful algorithms like explore-then-commit (ETC) and $\epsilon$-greedy algorithm incur sublinear but high regret. We propose a mechanism that uses a linear program to ensure truthfulness while minimizing deviation from Thompson sampling, yielding an $O(\ln T)$ frequentist regret. Our numerical experiments further demonstrate strong performance in multiple contexts and across other distribution families.

arxiv情報

著者 Yiting Hu,Lingjie Duan
発行日 2025-01-07 15:24:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG パーマリンク