要約
たとえば適切な質問をするなどして、ユーザーの好みを積極的に推測することは、人間と向き合う意思決定システムにとって重要です。
能動推論により、このようなシステムは、微妙な個人の好みに合わせて適応し、カスタマイズすることができます。
命令調整された大規模言語モデル (LLM) でこの機能を有効にするには、言語モデルをより堅牢な対話型システムに変換して、ユーザーの好みを推測するためにユーザーに質問するように促すことができます。
ただし、これらのモデルはそのままでは好みを抽出するのに効率的ではありません。生成される質問は有益ではなく、多数のユーザーとの対話を必要とし、下流システムの使いやすさを妨げます。
この研究では、LLM がより有益な質問を使用して好みを迅速に推測できるようにする推論時間アルゴリズムを導入します。
私たちのアルゴリズムは、LLM のプロンプトによって条件付き分布が定義される確率モデルを使用し、予想されるエントロピーと予想されるモデルの変更を最適化する質問を返します。
実際の製品アイテムを使用した簡素化されたインタラクティブな Web ショッピング設定の結果は、エントロピー削減アルゴリズムを備えた LLM が、ユーザー インタラクションを減らしながら、タスク パフォーマンスに関して同じ基礎となる LLM のベースラインを上回るパフォーマンスを示していることを示しています。
要約(オリジナル)
Actively inferring user preferences, for example by asking good questions, is important for any human-facing decision-making system. Active inference allows such systems to adapt and personalize themselves to nuanced individual preferences. To enable this ability for instruction-tuned large language models (LLMs), one may prompt them to ask users questions to infer their preferences, transforming the language models into more robust, interactive systems. However, out of the box, these models are not efficient at extracting preferences: the questions they generate are not informative, requiring a high number of user interactions and impeding the usability of the downstream system. In this work, we introduce an inference-time algorithm that helps LLMs quickly infer preferences by using more informative questions. Our algorithm uses a probabilistic model whose conditional distributions are defined by prompting an LLM, and returns questions that optimize expected entropy and expected model change. Results in a simplified interactive web shopping setting with real product items show that an LLM equipped with our entropy reduction algorithm outperforms baselines with the same underlying LLM on task performance while using fewer user interactions.
arxiv情報
著者 | Top Piriyakulkij,Volodymyr Kuleshov,Kevin Ellis |
発行日 | 2023-12-19 09:58:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google