NLPBench: Evaluating Large Language Models on Solving NLP Problems

要約

大規模言語モデル (LLM) の最近の開発により、自然言語処理 (NLP) の機能強化が期待できることが示されています。
これらの成功にもかかわらず、LLM の NLP 問題解決能力に特化した研究は依然として不足しています。
この分野のギャップを埋めるために、イェール大学の以前の最終試験から得たさまざまな NLP トピックにわたる大学レベルの NLP 質問 378 問で構成される独自のベンチマーク データセット NLPBench を紹介します。
NLPBench には、複数のサブ質問が同じ公開情報を共有するコンテキスト付きの質問や、多肢選択、短答、数学などの多様な質問タイプが含まれています。
GPT-3.5/4、PaLM-2、LLAMA-2 などの LLM を中心とした当社の評価には、思考連鎖 (CoT) や思考ツリー (ToT) などの高度なプロンプト戦略が組み込まれています。
私たちの調査では、特に LLAMA-2 (13b) のような小規模なモデルでは、高度なプロンプト戦略の有効性が一貫性がなく、LLM のパフォーマンスに悪影響を与える可能性があることが明らかになりました。
さらに、私たちの手動評価では、結果に特に影響を与える論理的分解と推論の弱点など、LLM の科学的問題解決スキルの特定の欠点が明らかになりました。

要約(オリジナル)

Recent developments in large language models (LLMs) have shown promise in enhancing the capabilities of natural language processing (NLP). Despite these successes, there remains a dearth of research dedicated to the NLP problem-solving abilities of LLMs. To fill the gap in this area, we present a unique benchmarking dataset, NLPBench, comprising 378 college-level NLP questions spanning various NLP topics sourced from Yale University’s prior final exams. NLPBench includes questions with context, in which multiple sub-questions share the same public information, and diverse question types, including multiple choice, short answer, and math. Our evaluation, centered on LLMs such as GPT-3.5/4, PaLM-2, and LLAMA-2, incorporates advanced prompting strategies like the chain-of-thought (CoT) and tree-of-thought (ToT). Our study reveals that the effectiveness of the advanced prompting strategies can be inconsistent, occasionally damaging LLM performance, especially in smaller models like the LLAMA-2 (13b). Furthermore, our manual assessment illuminated specific shortcomings in LLMs’ scientific problem-solving skills, with weaknesses in logical decomposition and reasoning notably affecting results.

arxiv情報

著者 Linxin Song,Jieyu Zhang,Lechao Cheng,Pengyuan Zhou,Tianyi Zhou,Irene Li
発行日 2023-09-27 13:02:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク