Large Language Models on Wikipedia-Style Survey Generation: an Evaluation in NLP Concepts

要約

大規模言語モデル (LLM) は、質問応答、要約、機械翻訳などを含む、さまざまな自然言語処理 (NLP) タスクにわたって大きな成功を収めています。
LLM は一般的なタスクでは優れていますが、ドメイン固有のアプリケーションでの有効性はまだ調査中です。
さらに、LLM で生成されたテキストには、幻覚や偽情報などの問題が現れることがあります。
この研究では、選ばれた 20 のトピックに焦点を当て、コンピュータ サイエンスと NLP の領域内で簡潔な調査記事を作成する LLM の能力を評価します。
自動評価では、グラウンド トゥルースに対してベンチマークを行った場合、GPT-4 が GPT-3.5 よりも優れていることが示されています。
さらに、4 人の人間の評価者が 4 つのモデル構成にわたって 6 つの観点から洞察を提供します。
ケーススタディを通じて、GPT は賞賛に値する結果をもたらすことが多い一方で、不完全な情報や事実の正確さの欠如などの欠点があることを示します。

要約(オリジナル)

Large Language Models (LLMs) have achieved significant success across various natural language processing (NLP) tasks, encompassing question-answering, summarization, and machine translation, among others. While LLMs excel in general tasks, their efficacy in domain-specific applications remains under exploration. Additionally, LLM-generated text sometimes exhibits issues like hallucination and disinformation. In this study, we assess LLMs’ capability of producing concise survey articles within the computer science-NLP domain, focusing on 20 chosen topics. Automated evaluations indicate that GPT-4 outperforms GPT-3.5 when benchmarked against the ground truth. Furthermore, four human evaluators provide insights from six perspectives across four model configurations. Through case studies, we demonstrate that while GPT often yields commendable results, there are instances of shortcomings, such as incomplete information and the exhibition of lapses in factual accuracy.

arxiv情報

著者 Fan Gao,Hang Jiang,Moritz Blum,Jinghui Lu,Dairui Liu,Yuang Jiang,Irene Li
発行日 2023-09-06 00:03:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク