Evaluating Factual Consistency of Texts with Semantic Role Labeling

要約

テキスト生成システムの自動評価は、最近ますます注目を集めており、特に生成されたテキストが入力ソースに対して忠実であるかどうかをチェックします。
既存の方法はタスク固有の言語モデルを使用した評価に依存することが多く、そのため生成されたスコアの解釈可能性がほとんどありません。
テキストの要約を念頭に置いて設計された参照不要の評価指標である SRLScore を紹介します。
私たちのアプローチは、セマンティック役割ラベルから構築されたファクトタプルを生成し、入力テキストと概要テキストの両方に適用されます。
最終的な事実スコアは、調整可能なスコアリング メカニズムによって計算され、ドメイン間でメソッドを簡単に適応させることができます。
英語の要約データセットに対する人間の判断との相関関係から、SRLScore が最先端の手法と競合し、追加のトレーニングやハイパーパラメーター調整を必要とせずにデータセット全体で安定した一般化を示すことが示されています。
オプションの相互参照解決ステップを試してみましたが、必要な追加のコンピューティングによってパフォーマンスの向上がほとんど上回ることがわかりました。
私たちのメトリクスは、https://github.com/heyjing/SRLScore からオンラインで入手できます。

要約(オリジナル)

Automated evaluation of text generation systems has recently seen increasing attention, particularly checking whether generated text stays truthful to input sources. Existing methods frequently rely on an evaluation using task-specific language models, which in turn allows for little interpretability of generated scores. We introduce SRLScore, a reference-free evaluation metric designed with text summarization in mind. Our approach generates fact tuples constructed from Semantic Role Labels, applied to both input and summary texts. A final factuality score is computed by an adjustable scoring mechanism, which allows for easy adaption of the method across domains. Correlation with human judgments on English summarization datasets shows that SRLScore is competitive with state-of-the-art methods and exhibits stable generalization across datasets without requiring further training or hyperparameter tuning. We experiment with an optional co-reference resolution step, but find that the performance boost is mostly outweighed by the additional compute required. Our metric is available online at https://github.com/heyjing/SRLScore.

arxiv情報

著者 Jing Fan,Dennis Aumiller,Michael Gertz
発行日 2023-05-22 17:59:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク