CogBench: a large language model walks into a psychology lab

要約

大規模言語モデル (LLM) は、人工知能の分野を大幅に進歩させました。
しかし、それらを総合的に評価することは依然として困難です。
これは、ほとんどのベンチマークでパフォーマンス指標が重視されていることが部分的に原因であると私たちは主張します。
この論文では、7 つの認知心理学実験から得られた 10 の行動指標を含むベンチマークである CogBench を紹介します。
この新しいアプローチは、LLM の行動を表現型解析するためのツールキットを提供します。
CogBench を 35 個の LLM に適用し、豊富で多様なデータセットを生成します。
私たちは統計的なマルチレベル モデリング技術を使用してこのデータを分析し、特定の LLM の微調整されたバージョン間の入れ子になった依存関係を考慮します。
私たちの研究は、パフォーマンスを向上させ、人間の行動に合わせる上で、モデルのサイズと人間のフィードバックからの強化学習 (RLHF) が重要な役割を果たしていることに焦点を当てています。
興味深いことに、オープンソース モデルは独自のモデルよりもリスクが少なく、コードの微調整が必​​ずしも LLM の動作を強化するわけではないことがわかりました。
最後に、プロンプトエンジニアリング手法の効果を調査します。
私たちは、思考連鎖のプロンプトが確率論的推論を改善し、一歩下がったプロンプトがモデルベースの行動を促進することを発見しました。

要約(オリジナル)

Large language models (LLMs) have significantly advanced the field of artificial intelligence. Yet, evaluating them comprehensively remains challenging. We argue that this is partly due to the predominant focus on performance metrics in most benchmarks. This paper introduces CogBench, a benchmark that includes ten behavioral metrics derived from seven cognitive psychology experiments. This novel approach offers a toolkit for phenotyping LLMs’ behavior. We apply CogBench to 35 LLMs, yielding a rich and diverse dataset. We analyze this data using statistical multilevel modeling techniques, accounting for the nested dependencies among fine-tuned versions of specific LLMs. Our study highlights the crucial role of model size and reinforcement learning from human feedback (RLHF) in improving performance and aligning with human behavior. Interestingly, we find that open-source models are less risk-prone than proprietary models and that fine-tuning on code does not necessarily enhance LLMs’ behavior. Finally, we explore the effects of prompt-engineering techniques. We discover that chain-of-thought prompting improves probabilistic reasoning, while take-a-step-back prompting fosters model-based behaviors.

arxiv情報

著者 Julian Coda-Forno,Marcel Binz,Jane X. Wang,Eric Schulz
発行日 2024-02-28 10:43:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク