HR-Bandit: Human-AI Collaborated Linear Recourse Bandit

要約

人間の医師は、患者がより効果的な治療を受けるために症状を修正できるようにする実用的な手段を頻繁に推奨します。
このような医療シナリオからインスピレーションを得て、私たちは探索と活用のバランスを取ることでアクションの選択と機能の変更の両方を最適化するリコース線形 UCB ($\textsf{RLinUCB}$) アルゴリズムを提案します。
これをさらに Human-AI Linear Recourse Bandit ($\textsf{HR-Bandit}$) に拡張し、人間の専門知識を統合してパフォーマンスを向上させます。
$\textsf{HR-Bandit}$ は 3 つの重要な保証を提供します。(i) 初期パフォーマンスを向上させるためのウォームスタート保証、(ii) 必要な人間の対話を最小限に抑えるための人的努力の保証、および (iii) 確実な動作を保証する堅牢性の保証
人間の決断が最適ではなかったとしても、線形ではない後悔。
ヘルスケアのケーススタディを含む実証結果により、既存のベンチマークに対して優れたパフォーマンスが実証されています。

要約(オリジナル)

Human doctors frequently recommend actionable recourses that allow patients to modify their conditions to access more effective treatments. Inspired by such healthcare scenarios, we propose the Recourse Linear UCB ($\textsf{RLinUCB}$) algorithm, which optimizes both action selection and feature modifications by balancing exploration and exploitation. We further extend this to the Human-AI Linear Recourse Bandit ($\textsf{HR-Bandit}$), which integrates human expertise to enhance performance. $\textsf{HR-Bandit}$ offers three key guarantees: (i) a warm-start guarantee for improved initial performance, (ii) a human-effort guarantee to minimize required human interactions, and (iii) a robustness guarantee that ensures sublinear regret even when human decisions are suboptimal. Empirical results, including a healthcare case study, validate its superior performance against existing benchmarks.

arxiv情報

著者 Junyu Cao,Ruijiang Gao,Esmaeil Keyvanshokooh
発行日 2024-10-18 17:41:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク