A Systematic Evaluation of Large Language Models for Natural Language Generation Tasks

要約

最近の取り組みでは、常識推論、数学的推論、コード生成などの分野で大規模言語モデル (LLM) が評価されています。
しかし、私たちの知る限り、モデルの優秀性を決定するための極めて重要な基準である自然言語生成 (NLG) タスクにおける LLM のパフォーマンスを具体的に調査した研究はありません。
したがって、このペーパーでは、NLG タスクのコンテキストで、よく知られ高性能の LLM、つまり ChatGPT、ChatGLM、T5 ベースのモデル、LLaMA ベースのモデル、および Pythia ベースのモデルの包括的な評価を実施します。
対話生成とテキスト要約を含む英語と中国語のデータセットを選択します。
さらに、入力テンプレートと後処理戦略を組み込んだ共通の評価設定を提案します。
私たちの研究では、詳細な分析を伴う自動結果の両方が報告されています。

要約(オリジナル)

Recent efforts have evaluated large language models (LLMs) in areas such as commonsense reasoning, mathematical reasoning, and code generation. However, to the best of our knowledge, no work has specifically investigated the performance of LLMs in natural language generation (NLG) tasks, a pivotal criterion for determining model excellence. Thus, this paper conducts a comprehensive evaluation of well-known and high-performing LLMs, namely ChatGPT, ChatGLM, T5-based models, LLaMA-based models, and Pythia-based models, in the context of NLG tasks. We select English and Chinese datasets encompassing Dialogue Generation and Text Summarization. Moreover, we propose a common evaluation setting that incorporates input templates and post-processing strategies. Our study reports both automatic results, accompanied by a detailed analysis.

arxiv情報

著者 Xuanfan Ni,Piji Li
発行日 2024-05-16 16:56:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク