A Looming Replication Crisis in Evaluating Behavior in Language Models? Evidence and Solutions

要約

大規模言語モデル (LLM) が日常の幅広いアプリケーションにますます統合される時代において、これらのモデルの動作に関する研究が急増しています。
しかし、この分野の新規性により、明確な方法論的なガイドラインが不足しています。
これにより、LLM の動作に関する研究から得られた洞察の再現性と一般化性についての懸念が生じます。
この研究では、複製危機の潜在的なリスクについて議論し、LLM の推論能力に影響を与えるとされる即時工学技術に焦点を当てた一連の複製実験で私たちの懸念を裏付けます。
GPT-3.5、GPT-4o、Gemini 1.5 Pro、Claude 3 Opus、Llama 3-8B、および Llama 3-70B を、思考連鎖、EmotionPrompting、ExpertPrompting、Sandbagging、および Re-Reading プロンプトでテストしました。
CommonsenseQA、CRT、NumGLUE、ScienceQA、StrategyQA などの推論ベンチマークの手動でダブルチェックされたサブセットを使用したエンジニアリング手法。
私たちの調査結果は、テストされたほぼすべての技術にわたって統計的に有意な差が一般的に欠如していることを明らかにし、とりわけ、以前の研究におけるいくつかの方法論的な弱点を浮き彫りにしました。
私たちは、LLM を評価するための堅牢な方法論の開発、健全なベンチマークの確立、モデル出力の正確かつ信頼性の高い評価を保証するための厳密な実験フレームワークの設計など、将来を見据えたアプローチを提案します。

要約(オリジナル)

In an era where large language models (LLMs) are increasingly integrated into a wide range of everyday applications, research into these models’ behavior has surged. However, due to the novelty of the field, clear methodological guidelines are lacking. This raises concerns about the replicability and generalizability of insights gained from research on LLM behavior. In this study, we discuss the potential risk of a replication crisis and support our concerns with a series of replication experiments focused on prompt engineering techniques purported to influence reasoning abilities in LLMs. We tested GPT-3.5, GPT-4o, Gemini 1.5 Pro, Claude 3 Opus, Llama 3-8B, and Llama 3-70B, on the chain-of-thought, EmotionPrompting, ExpertPrompting, Sandbagging, as well as Re-Reading prompt engineering techniques, using manually double-checked subsets of reasoning benchmarks including CommonsenseQA, CRT, NumGLUE, ScienceQA, and StrategyQA. Our findings reveal a general lack of statistically significant differences across nearly all techniques tested, highlighting, among others, several methodological weaknesses in previous research. We propose a forward-looking approach that includes developing robust methodologies for evaluating LLMs, establishing sound benchmarks, and designing rigorous experimental frameworks to ensure accurate and reliable assessments of model outputs.

arxiv情報

著者 Laurène Vaugrante,Mathias Niepert,Thilo Hagendorff
発行日 2024-09-30 14:00:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク