要約
人間のフィードバックからの嗜好モデルの学習は、人工知能の最近の進歩の中心となっています。
高品質の人間によるアノテーションを取得するコストを動機として、私たちは嗜好モデルを学習するための効率的な人間の嗜好の引き出しを研究しています。
私たちの研究における重要なアイデアは、最適な情報収集ポリシーを計算するための方法論である最適設計を、項目のリストとして表される複数の回答を持つ質問に一般化することです。
ポリシーはリスト上の分布であり、確率に比例してリストから優先順位を導き出します。
私たちのアイデアの一般性を示すために、リスト内の項目に関する絶対フィードバック モデルとランキング フィードバック モデルの両方を研究します。
私たちは両方に対して効率的なアルゴリズムを設計し、分析します。
最後に、既存の質問応答問題でアルゴリズムを評価することで、アルゴリズムが実用的であることを示します。
要約(オリジナル)
Learning of preference models from human feedback has been central to recent advances in artificial intelligence. Motivated by the cost of obtaining high-quality human annotations, we study efficient human preference elicitation for learning preference models. The key idea in our work is to generalize optimal designs, a methodology for computing optimal information-gathering policies, to questions with multiple answers, represented as lists of items. The policy is a distribution over lists and we elicit preferences from the list proportionally to its probability. To show the generality of our ideas, we study both absolute and ranking feedback models on items in the list. We design efficient algorithms for both and analyze them. Finally, we demonstrate that our algorithms are practical by evaluating them on existing question-answering problems.
arxiv情報
著者 | Subhojyoti Mukherjee,Anusha Lalitha,Kousha Kalantari,Aniket Deshmukh,Ge Liu,Yifei Ma,Branislav Kveton |
発行日 | 2024-11-04 18:41:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google