要約
LLM を意思決定の「エージェント」として使用することへの関心が高まっています。
これには、どのモデルを使用するかなど、多くの自由度が含まれます。
どのようにプロンプトを表示する必要がありますか。
内省したり、思考連鎖推論を行ったりするよう求められるべきでしょうか?
これらの疑問を解決するには、そしてより広範には、LLM エージェントが信頼できるほど信頼できるかどうかを判断するには、そのようなエージェントの経済的合理性を評価する方法論が必要です。
本稿ではその 1 つを紹介します。
まず、合理的な意思決定に関する経済文献を調査し、エージェントが示すべき多数のきめの細かい「要素」とそれらの間の依存関係を分類します。
次に、これらの要素に関する LLM のパフォーマンスを定量的にスコア付けし、ユーザーが提供するルーブリックと組み合わせて「STEER レポート カード」を作成するベンチマーク分布を提案します。
最後に、14 の異なる LLM を使用した大規模な実証実験の結果について説明し、現在の最先端技術と、合理的な動作を示すモデルの能力に対するさまざまなモデル サイズの影響の両方を特徴付けます。
要約(オリジナル)
There is increasing interest in using LLMs as decision-making ‘agents.’ Doing so includes many degrees of freedom: which model should be used; how should it be prompted; should it be asked to introspect, conduct chain-of-thought reasoning, etc? Settling these questions — and more broadly, determining whether an LLM agent is reliable enough to be trusted — requires a methodology for assessing such an agent’s economic rationality. In this paper, we provide one. We begin by surveying the economic literature on rational decision making, taxonomizing a large set of fine-grained ‘elements’ that an agent should exhibit, along with dependencies between them. We then propose a benchmark distribution that quantitatively scores an LLMs performance on these elements and, combined with a user-provided rubric, produces a ‘STEER report card.’ Finally, we describe the results of a large-scale empirical experiment with 14 different LLMs, characterizing the both current state of the art and the impact of different model sizes on models’ ability to exhibit rational behavior.
arxiv情報
| 著者 | Narun Raman,Taylor Lundy,Samuel Amouyal,Yoav Levine,Kevin Leyton-Brown,Moshe Tennenholtz |
| 発行日 | 2024-05-28 16:27:56+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google