Zero-shot Faithfulness Evaluation for Text Summarization with Foundation Language Model

要約

自然言語生成が大幅に改善されたにもかかわらず、要約モデルは依然として不忠実性の問題に悩まされています。
これまでの研究では、他のタスクまたはドメイン内合成データでトレーニングされたモデルを使用するか、ChatGPT などの大規模なモデルをプロンプトすることによって忠実度を評価していました。
この論文では、中程度のサイズの基礎言語モデルを使用してゼロショット忠実性評価を簡単に行うことを提案します。
新しいメトリクス FFLM を導入します。これは、出力と一致するテキストの一部を接頭辞として付けると、出力を予測する確率が高まるという直観に基づいた確率変化の組み合わせです。
実験によると、FFLM は 24 分の 1 少ないパラメータで、不一致検出と忠実性評価の両方において ChatGPT と競合するか、それを上回るパフォーマンスを示します。
FFLM は、他の強力なベースラインよりも改善を実現します。

要約(オリジナル)

Despite tremendous improvements in natural language generation, summarization models still suffer from the unfaithfulness issue. Previous work evaluates faithfulness either using models trained on the other tasks or in-domain synthetic data, or prompting a large model such as ChatGPT. This paper proposes to do zero-shot faithfulness evaluation simply with a moderately-sized foundation language model. We introduce a new metric FFLM, which is a combination of probability changes based on the intuition that prefixing a piece of text that is consistent with the output will increase the probability of predicting the output. Experiments show that FFLM performs competitively with or even outperforms ChatGPT on both inconsistency detection and faithfulness rating with 24x fewer parameters. FFLM also achieves improvements over other strong baselines.

arxiv情報

著者 Qi Jia,Siyu Ren,Yizhu Liu,Kenny Q. Zhu
発行日 2023-12-14 06:41:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク