要約
LLM を意思決定の「エージェント」として使用することへの関心が高まっています。
これには、どのモデルを使用するかなど、多くの自由度が含まれます。
どのようにプロンプトを表示する必要がありますか。
内省したり、思考連鎖推論を行ったりするよう求められるべきでしょうか?
これらの疑問を解決するには、そしてより広範には、LLM エージェントが信頼できるほど信頼できるかどうかを判断するには、そのようなエージェントの経済的合理性を評価する方法論が必要です。
本稿ではその 1 つを紹介します。
まず、合理的な意思決定に関する経済文献を調査し、エージェントが示すべき多数のきめの細かい「要素」とそれらの間の依存関係を分類します。
次に、これらの要素に関する LLM のパフォーマンスを定量的にスコア付けし、ユーザーが提供するルーブリックと組み合わせて「STEER レポート カード」を作成するベンチマーク分布を提案します。
最後に、14 の異なる LLM を使用した大規模な実証実験の結果について説明し、現在の最先端技術と、合理的な動作を示すモデルの能力に対するさまざまなモデル サイズの影響の両方を特徴付けます。
要約(オリジナル)
There is increasing interest in using LLMs as decision-making ‘agents.’ Doing so includes many degrees of freedom: which model should be used; how should it be prompted; should it be asked to introspect, conduct chain-of-thought reasoning, etc? Settling these questions — and more broadly, determining whether an LLM agent is reliable enough to be trusted — requires a methodology for assessing such an agent’s economic rationality. In this paper, we provide one. We begin by surveying the economic literature on rational decision making, taxonomizing a large set of fine-grained ‘elements’ that an agent should exhibit, along with dependencies between them. We then propose a benchmark distribution that quantitatively scores an LLMs performance on these elements and, combined with a user-provided rubric, produces a ‘STEER report card.’ Finally, we describe the results of a large-scale empirical experiment with 14 different LLMs, characterizing the both current state of the art and the impact of different model sizes on models’ ability to exhibit rational behavior.
arxiv情報
著者 | Narun Raman,Taylor Lundy,Samuel Amouyal,Yoav Levine,Kevin Leyton-Brown,Moshe Tennenholtz |
発行日 | 2024-05-28 16:27:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google