要約
大規模言語モデル (LLM) は、明確に尋ねられた質問に答えるのに効果的です。
ただし、あいまいなクエリに直面すると、予期しない動作をし、誤った出力が生成される可能性があります。
これは、曖昧さを効果的に解決するために明確な質問をできるインテリジェントなエージェントの開発の必要性を強調しています。
この機能には、複数の会話ターンにわたる複雑な理解、状態追跡、推論、計画が必要です。
ただし、これを直接測定するのは困難な場合があります。
この論文では、裁判官に一連の質問をすることによって、それ自体は未知であるが裁判官に明らかになったエンティティを推定する LLM の能力を評価する代理問題を提供します。
このエンティティ推定ゲームは、言語モデルの会話推論と計画能力を調査するための評価フレームワークとして機能します。
私たちはさまざまな LLM を系統的に評価し、このタスクにおけるパフォーマンスの大きな違いを発見しました。
GPT-4 のような強力な LLM は人間のプレーヤーよりも大幅に優れていることがわかりました。
さらに、動作クローニング (BC) を使用して、より強力なモデルのデモンストレーションのみを使用して、より弱いモデルがより強力なモデルを模倣し、データまたはドメインに一般化できるかどうかを調べます。
最後に、強化学習を使用して、ゲームプレイのエピソードを通じてビクーニャモデルの推論と計画能力を強化し、パフォーマンスの大幅な向上につながることを提案します。
私たちは、この問題が、曖昧な状況においてより賢く行動するように自律エージェントを訓練する方法についての洞察を提供することを願っています。
要約(オリジナル)
Large language models (LLMs) are effective at answering questions that are clearly asked. However, when faced with ambiguous queries they can act unpredictably and produce incorrect outputs. This underscores the need for the development of intelligent agents capable of asking clarification questions to resolve ambiguities effectively. This capability requires complex understanding, state tracking, reasoning and planning over multiple conversational turns. However, directly measuring this can be challenging. In this paper, we offer a surrogate problem which assesses an LLMs’s capability to deduce an entity unknown to itself, but revealed to a judge, by asking the judge a series of queries. This entity-deducing game can serve as an evaluation framework to probe the conversational reasoning and planning capabilities of language models. We systematically evaluate various LLMs and discover significant differences in their performance on this task. We find that strong LLMs like GPT-4 outperform human players by a large margin. We further employ Behavior Cloning (BC) to examine whether a weaker model is capable of imitating a stronger model and generalizing to data or domains, using only the demonstrations from a stronger model. We finally propose to use Reinforcement Learning to enhance reasoning and planning capacity of Vicuna models through episodes of game playing, which lead to significant performance improvement. We hope that this problem offers insights into how autonomous agents could be trained to behave more intelligently in ambiguous circumstances.
arxiv情報
著者 | Yizhe Zhang,Jiarui Lu,Navdeep Jaitly |
発行日 | 2023-10-04 05:40:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google