Bayesian Preference Elicitation with Language Models

要約

AI システムをユーザーの利益に合わせるには、人間の複雑な価値観や好みを理解し、組み込む必要があります。
最近、人間のユーザーの好みに関する情報を収集するために言語モデル (LM) が使用されています。
この設定データは、他の LM および/または AI システムを微調整したり、ガイドしたりするために使用できます。
しかし、LMは、不確実性の定量化、人間の精神状態のモデル化、有益な質問といった嗜好学習の重要な側面に苦戦していることがわかっています。
これらの課題は、明確に定義された特徴空間内で有益なクエリを設計することに焦点を当てたベイジアン最適実験計画 (BOED) など、機械学習の他の分野で対処されています。
しかし、これらの方法は、拡張することが難しく、関連する特徴を特定するだけで困難になる現実の問題に適用することも困難です。
BOED を使用して有益な質問の選択をガイドし、LM を使用して特徴を抽出し、抽象的な BOED クエリを自然言語の質問に変換するフレームワークである OPEN (自然言語による最適化抽出) を紹介します。
LM の柔軟性と BOED の厳密性を組み合わせることで、OPEN は現実世界のドメインへの適応性を維持しながら、クエリの情報性を最適化できます。
ユーザー調査では、OPEN が既存の LM および BOED ベースの選好誘発方法よりも優れていることがわかりました。

要約(オリジナル)

Aligning AI systems to users’ interests requires understanding and incorporating humans’ complex values and preferences. Recently, language models (LMs) have been used to gather information about the preferences of human users. This preference data can be used to fine-tune or guide other LMs and/or AI systems. However, LMs have been shown to struggle with crucial aspects of preference learning: quantifying uncertainty, modeling human mental states, and asking informative questions. These challenges have been addressed in other areas of machine learning, such as Bayesian Optimal Experimental Design (BOED), which focus on designing informative queries within a well-defined feature space. But these methods, in turn, are difficult to scale and apply to real-world problems where simply identifying the relevant features can be difficult. We introduce OPEN (Optimal Preference Elicitation with Natural language) a framework that uses BOED to guide the choice of informative questions and an LM to extract features and translate abstract BOED queries into natural language questions. By combining the flexibility of LMs with the rigor of BOED, OPEN can optimize the informativity of queries while remaining adaptable to real-world domains. In user studies, we find that OPEN outperforms existing LM- and BOED-based methods for preference elicitation.

arxiv情報

著者 Kunal Handa,Yarin Gal,Ellie Pavlick,Noah Goodman,Jacob Andreas,Alex Tamkin,Belinda Z. Li
発行日 2024-03-08 18:57:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク