要約
不確実性に直面した場合、*情報を探す*能力は基本的に重要です。
医療診断やトラブルシューティングなどの実際のアプリケーションの多くでは、タスクを解決するために必要な情報は最初は与えられず、フォローアップの質問をして積極的に情報を探す必要があります (たとえば、医師が患者に症状の詳細を尋ねるなど)。
)。
この研究では、効果的な質問をすることで積極的に情報を探索する機能を備えた大規模な言語モデルを強化するアルゴリズムである、思考の不確実性 (UoT) を紹介します。
UoT は、1) 将来起こり得るシナリオとその発生の可能性をモデルがシミュレーションできるようにする *不確実性を認識したシミュレーション アプローチ*、2) モデルが情報を求めるよう動機づける情報獲得によって動機付けられる *不確実性ベースの報酬*、および
3) 期待される報酬を最大化する方法で質問する最適な質問を選択する *報酬伝播スキーム*。
医療診断、トラブルシューティング、および「20 質問」ゲームに関する実験では、UoT は、直接プロンプトと比較して、複数の LLM にわたるタスク完了成功率で平均 38.1% のパフォーマンス向上を達成し、効率 (つまり、質問の数) も向上しました。
タスクを完了するために必要です)。
私たちのコードは[ここ](https://github.com/zhiyuanhubj/UoT)でリリースされました。
要約(オリジナル)
In the face of uncertainty, the ability to *seek information* is of fundamental importance. In many practical applications, such as medical diagnosis and troubleshooting, the information needed to solve the task is not initially given and has to be actively sought by asking follow-up questions (for example, a doctor asking a patient for more details about their symptoms). In this work, we introduce Uncertainty of Thoughts (UoT), an algorithm to augment large language models with the ability to actively seek information by asking effective questions. UoT combines 1) an *uncertainty-aware simulation approach* which enables the model to simulate possible future scenarios and how likely they are to occur, 2) *uncertainty-based rewards* motivated by information gain which incentivizes the model to seek information, and 3) a *reward propagation scheme* to select the optimal question to ask in a way that maximizes the expected reward. In experiments on medical diagnosis, troubleshooting, and the `20 Questions` game, UoT achieves an average performance improvement of 38.1% in the rate of successful task completion across multiple LLMs compared with direct prompting and also improves efficiency (i.e., the number of questions needed to complete the task). Our code has been released [here](https://github.com/zhiyuanhubj/UoT)
arxiv情報
著者 | Zhiyuan Hu,Chumin Liu,Xidong Feng,Yilun Zhao,See-Kiong Ng,Anh Tuan Luu,Junxian He,Pang Wei Koh,Bryan Hooi |
発行日 | 2024-05-30 14:03:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google