要約
複雑な言語タスクを処理するための大規模言語モデル (LLM) の急速な進歩に伴い、マルコフ意思決定プロセス (MDP) としてよく表される人間の一連の意思決定プロセスをエミュレートするエージェントとして LLM を採用する研究が増えています。
MDP のアクションは特定の確率分布に従い、反復サンプリングが必要です。
これは、LLM エージェントが確率分布を理解する能力に関する好奇心を呼び起こし、それによって確率的サンプリングと行動シーケンスの生成を通じてエージェントの行動意思決定を導きます。
上記の質問に答えるために、問題を 2 つの主な側面、つまり既知の確率分布を使用したシーケンス シミュレーションと未知の確率分布を使用したシーケンス シミュレーションに分割します。
私たちの分析によると、LLM エージェントは確率を理解できますが、確率サンプリングには苦労していることがわかりました。
確率的サンプリングを実行する能力は、コーディング ツールを統合することである程度改善できますが、このレベルのサンプリング精度では、エージェントとしての人間の行動をシミュレートすることは依然として困難です。
要約(オリジナル)
With the rapid advancement of large language models (LLMs) for handling complex language tasks, an increasing number of studies are employing LLMs as agents to emulate the sequential decision-making processes of humans often represented as Markov decision-making processes (MDPs). The actions in MDPs adhere to specific probability distributions and require iterative sampling. This arouses curiosity regarding the capacity of LLM agents to comprehend probability distributions, thereby guiding the agent’s behavioral decision-making through probabilistic sampling and generating behavioral sequences. To answer the above question, we divide the problem into two main aspects: sequence simulation with known probability distribution and sequence simulation with unknown probability distribution. Our analysis indicates that LLM agents can understand probabilities, but they struggle with probability sampling. Their ability to perform probabilistic sampling can be improved to some extent by integrating coding tools, but this level of sampling precision still makes it difficult to simulate human behavior as agents.
arxiv情報
著者 | Jia Gu,Liang Pang,Huawei Shen,Xueqi Cheng |
発行日 | 2024-12-18 15:56:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google