Enhancing Preference-based Linear Bandits via Human Response Time

要約

人間による二値選択フィードバックは、そのシンプルさから対話型の好みの学習で広く使用されていますが、好みの強さに関する情報は限られています。
この制限を克服するために、嗜好の強さと逆相関する人間の応答時間を補完的な情報として活用します。
私たちの研究では、人間の選択と応答時間を共同でモデル化する EZ 拡散モデルを、好みに基づく線形バンディットに統合しています。
線形回帰問題として選択肢と応答時間の両方を使用して効用推定問題を再定式化する、計算効率の高い効用推定器を導入します。
従来の選択のみの推定量と理論的および経験的に比較すると、強い優先順位を持つクエリ (「簡単な」クエリ) の場合、選択肢だけでは限られた情報が提供される一方、応答時間は優先順位の強さに関する貴重な補足情報を提供することが明らかになります。
その結果、応答時間を組み込むことで、簡単なクエリがさらに便利になります。
私たちは、3 つの現実世界のデータセットに基づくシミュレーションを使用して、固定予算のベストアーム識別問題でこの利点を実証し、応答時間を組み込んだ場合に学習が加速されることを一貫して示しています。

要約(オリジナル)

Binary human choice feedback is widely used in interactive preference learning for its simplicity, but it provides limited information about preference strength. To overcome this limitation, we leverage human response times, which inversely correlate with preference strength, as complementary information. Our work integrates the EZ-diffusion model, which jointly models human choices and response times, into preference-based linear bandits. We introduce a computationally efficient utility estimator that reformulates the utility estimation problem using both choices and response times as a linear regression problem. Theoretical and empirical comparisons with traditional choice-only estimators reveal that for queries with strong preferences (‘easy’ queries), choices alone provide limited information, while response times offer valuable complementary information about preference strength. As a result, incorporating response times makes easy queries more useful. We demonstrate this advantage in the fixed-budget best-arm identification problem, with simulations based on three real-world datasets, consistently showing accelerated learning when response times are incorporated.

arxiv情報

著者 Shen Li,Yuyang Zhang,Zhaolin Ren,Claire Liang,Na Li,Julie A. Shah
発行日 2024-09-09 17:02:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.LG, econ.EM, stat.ML パーマリンク