Take Caution in Using LLMs as Human Surrogates: Scylla Ex Machina

要約

最近の研究では、大規模言語モデル (LLM) が、経済実験、調査、政治的議論において人間の行動と一致する、人間のような推論を示すことができることを示唆しています。
このため、多くの人が社会科学研究において LLM を人間の代理として使用できると提案しています。
しかし、LLM は人間とは根本的に異なり、確率的なパターンに依存しており、人間の認知を形成する具体化された経験や生存目標がありません。
11-20 資金要求ゲームを使用して、LLM の推論の深さを評価します。
かなりの量の人間の行動データを使用した微調整を伴う 1 つのケースを除いて、ほとんどすべての高度なアプローチは、多くのモデルにわたって人間の行動の分布を再現することができません。
失敗の原因は多様で、入力言語、役割、安全対策に関連しています。
これらの結果は、人間の行動を研究するため、または人間の代理として LLM を使用することに対して警告します。

要約(オリジナル)

Recent studies suggest large language models (LLMs) can exhibit human-like reasoning, aligning with human behavior in economic experiments, surveys, and political discourse. This has led many to propose that LLMs can be used as surrogates for humans in social science research. However, LLMs differ fundamentally from humans, relying on probabilistic patterns, absent the embodied experiences or survival objectives that shape human cognition. We assess the reasoning depth of LLMs using the 11-20 money request game. Almost all advanced approaches fail to replicate human behavior distributions across many models, except in one case involving fine-tuning using a substantial amount of human behavior data. Causes of failure are diverse, relating to input language, roles, and safeguarding. These results caution against using LLMs to study human behaviors or as human surrogates.

arxiv情報

著者 Yuan Gao,Dokyun Lee,Gordon Burtch,Sina Fazelpour
発行日 2024-10-25 14:46:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.HC, econ.GN, q-fin.EC パーマリンク