要約
最近の大規模言語モデル (LLM) は、さまざまなタスクにわたって、生成されたテキストをユーザーの意図に合わせて調整する際に、顕著なパフォーマンスを示しています。
長文テキストの生成に関しては、談話の一貫性の観点からの生成に対する関心が高まっています。
ただし、BLEU、ROUGE、BertScore などの既存の語彙または意味論的な指標では、談話の一貫性を効果的に捉えることができません。
LLM の成果を評価するための談話固有の自動評価手法の開発には、より重点を置き、探究する必要があります。
この論文では、2 つの長文記事間の談話の相違を定量化するために設計された新しい自動測定基準を紹介します。
代表的なドメインの 3 つのデータセットに対する広範な実験により、私たちのメトリクスが人間の好みや GPT-4 コヒーレンス評価とより密接に一致し、既存の評価方法よりも優れていることが実証されました。
要約(オリジナル)
Recent large language models (LLMs) have shown remarkable performance in aligning generated text with user intentions across various tasks. When it comes to long-form text generation, there has been a growing interest in generation from a discourse coherence perspective. However, existing lexical or semantic metrics such as BLEU, ROUGE, BertScore cannot effectively capture the discourse coherence. The development of discourse-specific automatic evaluation methods for assessing the output of LLMs warrants greater focus and exploration. In this paper, we present a novel automatic metric designed to quantify the discourse divergence between two long-form articles. Extensive experiments on three datasets from representative domains demonstrate that our metric aligns more closely with human preferences and GPT-4 coherence evaluation, outperforming existing evaluation methods.
arxiv情報
著者 | Yinhong Liu,Yixuan Su,Ehsan Shareghi,Nigel Collier |
発行日 | 2024-02-15 18:23:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google