Exploring the Use of Large Language Models for Reference-Free Text Quality Evaluation: A Preliminary Empirical Study

要約

タイトル:大規模言語モデルを用いた参照なしテキスト品質評価の探究:予備実証研究

要約:
– テキストの質を評価することは自然言語処理において課題である。
– OpenAI の ChatGPT は大きな言語モデル (LLM) の代表格であり、多くのタスクにおいて優れた性能を発揮している。
– この報告書では、ChatGPT 等の LLMS の効果を調査し、テキスト品質評価において最適な方法を探究する。
– ChatGPT や同様の LLM に基づいた 3 種類の参照なし評価方法を比較した。
– 実験結果から、ChatGPT は参照なしでもテキスト質を多角的に評価することができ、既存の自動評価手法の多くよりも優れた性能を発揮することがわかった。
– 特に、ChatGPT を使用してテキスト品質を数値化する Explicit Score が最も効果的かつ信頼性がある手法であった。
– ただし、ChatGPT を使用して 2 つのテキストの品質を直接比較することは、最適でない場合があることに注意が必要である。
– この報告書が、ChatGPT 等の LLM を用いたテキスト品質評価の適切な方法の選択に貢献することを期待している。

要約(オリジナル)

Evaluating the quality of generated text is a challenging task in natural language processing. This difficulty arises from the inherent complexity and diversity of text. Recently, OpenAI’s ChatGPT, a powerful large language model (LLM), has garnered significant attention due to its impressive performance in various tasks. Therefore, we present this report to investigate the effectiveness of LLMs, especially ChatGPT, and explore ways to optimize their use in assessing text quality. We compared three kinds of reference-free evaluation methods based on ChatGPT or similar LLMs. The experimental results prove that ChatGPT is capable to evaluate text quality effectively from various perspectives without reference and demonstrates superior performance than most existing automatic metrics. In particular, the Explicit Score, which utilizes ChatGPT to generate a numeric score measuring text quality, is the most effective and reliable method among the three exploited approaches. However, directly comparing the quality of two texts using ChatGPT may lead to suboptimal results. We hope this report will provide valuable insights into selecting appropriate methods for evaluating text quality with LLMs such as ChatGPT.

arxiv情報

著者 Yi Chen,Rui Wang,Haiyun Jiang,Shuming Shi,Ruifeng Xu
発行日 2023-04-10 12:46:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク