要約
インタラクティブな好み学習システムは、クエリを選択肢のペアとして提示し、二者択一の選択肢を収集することによって、人間の好みを推測します。
二者択一はシンプルで広く使用されていますが、好みの強さに関する情報は限られています。
これに対処するために、嗜好の強さと反比例する人間の応答時間を追加のシグナルとして利用します。
心理学の EZ 拡散モデルに基づいて、選択肢と応答時間を組み合わせて人間の効用関数を推定する、計算効率の高い方法を提案します。
理論的および経験的分析によると、強い優先順位を持つクエリの場合、応答時間は優先順位の強さに関する追加情報を提供することで選択肢を補完し、ユーティリティ推定の大幅な向上につながります。
この推定量を優先ベースの線形バンディットに組み込んで、固定予算の最適アームを特定します。
3 つの現実世界のデータセットでのシミュレーションは、応答時間を使用すると、選択のみのアプローチと比較して、嗜好学習が大幅に加速されることを示しています。
コード、スライド、トークビデオなどの追加資料は、https://shenlirobot.github.io/pages/NeurIPS24.html で入手できます。
要約(オリジナル)
Interactive preference learning systems infer human preferences by presenting queries as pairs of options and collecting binary choices. Although binary choices are simple and widely used, they provide limited information about preference strength. To address this, we leverage human response times, which are inversely related to preference strength, as an additional signal. We propose a computationally efficient method that combines choices and response times to estimate human utility functions, grounded in the EZ diffusion model from psychology. Theoretical and empirical analyses show that for queries with strong preferences, response times complement choices by providing extra information about preference strength, leading to significantly improved utility estimation. We incorporate this estimator into preference-based linear bandits for fixed-budget best-arm identification. Simulations on three real-world datasets demonstrate that using response times significantly accelerates preference learning compared to choice-only approaches. Additional materials, such as code, slides, and talk video, are available at https://shenlirobot.github.io/pages/NeurIPS24.html
arxiv情報
著者 | Shen Li,Yuyang Zhang,Zhaolin Ren,Claire Liang,Na Li,Julie A. Shah |
発行日 | 2025-01-02 12:00:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google