要約
この論文では、既知の経験的結果と比較して、LLM が戦略的シナリオにおいて人間のような好みの判断を行うことを学習するかどうかを評価します。
ソーラーとミストラルは、人間と一致する安定した価値ベースの選好を示し、囚人のジレンマ(賭け金サイズ効果を含む)と旅行者のジレンマ(ペナルティサイズ効果を含む)において協力に対して人間と同様の選好を示すことが示されています。
モデルのサイズ、価値に基づく好み、表面性の間の関係を確立します。
最後に、ここでの結果は、脆弱性が低い傾向にあるモデルがスライディング ウィンドウの注意に依存していることを示しており、潜在的な関連性を示唆しています。
さらに、任意の LLM から選好関係を構築する新しい方法と、旅行者のジレンマにおける人間の行動に関する仮説のサポートに貢献します。
要約(オリジナル)
In this paper, we evaluate whether LLMs learn to make human-like preference judgements in strategic scenarios as compared with known empirical results. Solar and Mistral are shown to exhibit stable value-based preference consistent with humans and exhibit human-like preference for cooperation in the prisoner’s dilemma (including stake-size effect) and traveler’s dilemma (including penalty-size effect). We establish a relationship between model size, value-based preference, and superficiality. Finally, results here show that models tending to be less brittle have relied on sliding window attention suggesting a potential link. Additionally, we contribute a novel method for constructing preference relations from arbitrary LLMs and support for a hypothesis regarding human behavior in the traveler’s dilemma.
arxiv情報
著者 | Jesse Roberts,Kyle Moore,Doug Fisher |
発行日 | 2024-10-02 17:54:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google