要約
私たちは、現代の大規模言語モデル (LLM) が、強化学習と意思決定の中核となる機能である探索にどの程度関与できるかを調査します。
私たちは、トレーニング介入を行わずに、既存の LLM のネイティブ パフォーマンスに焦点を当てます。
私たちは LLM を単純なマルチアームバンディット環境にエージェントとして展開し、完全にコンテキスト内、つまり LLM プロンプト内で環境の説明と対話履歴を指定します。
私たちは、さまざまなプロンプト設計を使用して GPT-3.5、GPT-4、および Llama2 を実験しましたが、実質的な介入なしではモデルが確実に探索に参加しないことがわかりました。 i) すべての実験を通じて、満足のいく結果が得られたのは 1 つの構成のみでした。
探索的行動: 十分な統計として提示される、思考連鎖推論と外部から要約された対話履歴を備えた GPT-4。
ii) 他のすべての構成では、思考連鎖推論はあるものの要約されていない歴史を含む、堅牢な探索行動が発生しませんでした。
これらの発見は肯定的に解釈することもできますが、LLM エージェントから望ましい動作を得るには、外部要約 (より複雑な設定では不可能な可能性があります) が重要であることを示唆しています。
私たちは、複雑な設定で LLM ベースの意思決定エージェントを強化するには、微調整やデータセットのキュレーションなどの重要なアルゴリズム介入が必要になる可能性があると結論付けています。
要約(オリジナル)
We investigate the extent to which contemporary Large Language Models (LLMs) can engage in exploration, a core capability in reinforcement learning and decision making. We focus on native performance of existing LLMs, without training interventions. We deploy LLMs as agents in simple multi-armed bandit environments, specifying the environment description and interaction history entirely in-context, i.e., within the LLM prompt. We experiment with GPT-3.5, GPT-4, and Llama2, using a variety of prompt designs, and find that the models do not robustly engage in exploration without substantial interventions: i) Across all of our experiments, only one configuration resulted in satisfactory exploratory behavior: GPT-4 with chain-of-thought reasoning and an externally summarized interaction history, presented as sufficient statistics; ii) All other configurations did not result in robust exploratory behavior, including those with chain-of-thought reasoning but unsummarized history. Although these findings can be interpreted positively, they suggest that external summarization — which may not be possible in more complex settings — is important for obtaining desirable behavior from LLM agents. We conclude that non-trivial algorithmic interventions, such as fine-tuning or dataset curation, may be required to empower LLM-based decision making agents in complex settings.
arxiv情報
著者 | Akshay Krishnamurthy,Keegan Harris,Dylan J. Foster,Cyril Zhang,Aleksandrs Slivkins |
発行日 | 2024-03-22 17:50:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google