A Novel Computational and Modeling Foundation for Automatic Coherence Assessment

要約

一貫性は、よく書かれたテキストの重要な特性であり、テキスト単位が相互に関連する方法を指します。
生成 AI の時代では、一貫性評価は多くの NLP タスクに不可欠です。
要約、生成、長文の質問への回答など。
ただし、NLP では、{コヒーレンス} は明確に定義されていない概念であり、大規模な自動かつ体系的なコヒーレンス評価を可能にする正式な定義や評価指標がありません。
このギャップを埋めるために、この研究では、言説を一貫性のあるものにするものについての \citet{Reinhart:1980} の正式な言語定義を採用します。これは、{\em の凝集性、一貫性} および {\em 関連性} の 3 つの条件から構成されます。
そして、これらの条件をそれぞれの計算タスクとして形式化します。
私たちは、(i) これらすべてのタスクでトレーニングされたモデルはコヒーレンス検出に必要な特徴を学習し、(ii) すべてのタスクの統合モデルは、各タスクで個別にトレーニングされたモデルのパフォーマンスを超える、と仮説を立てます。
人間によって評価された一貫性スコアの 2 つのベンチマーク (1 つは自動生成された 500 の短編小説を含み、もう 1 つは 4K の現実世界のテキストを含む) で、私たちの実験により、提案されたタスクの共同トレーニングがタスク固有のモデルと比較して各タスクのパフォーマンスの向上につながることが確認されました。
、そして、強力なベースラインと比較して、一貫性を評価する際の全体的なパフォーマンスが向上します。
ここで提案されているような形式的および計算によるコヒーレンスの設定は、大規模なコヒーレンスの自動評価の高度な方法に強固な基盤を提供すると結論付けています。

要約(オリジナル)

Coherence is an essential property of well-written texts, that refers to the way textual units relate to one another. In the era of generative AI, coherence assessment is essential for many NLP tasks; summarization, generation, long-form question-answering, and more. However, in NLP {coherence} is an ill-defined notion, not having a formal definition or evaluation metrics, that would allow for large-scale automatic and systematic coherence assessment. To bridge this gap, in this work we employ the formal linguistic definition of \citet{Reinhart:1980} of what makes a discourse coherent, consisting of three conditions — {\em cohesion, consistency} and {\em relevance} — and formalize these conditions as respective computational tasks. We hypothesize that (i) a model trained on all of these tasks will learn the features required for coherence detection, and that (ii) a joint model for all tasks will exceed the performance of models trained on each task individually. On two benchmarks for coherence scoring rated by humans, one containing 500 automatically-generated short stories and another containing 4k real-world texts, our experiments confirm that jointly training on the proposed tasks leads to better performance on each task compared with task-specific models, and to better performance on assessing coherence overall, compared with strong baselines. We conclude that the formal and computational setup of coherence as proposed here provides a solid foundation for advanced methods of large-scale automatic assessment of coherence.

arxiv情報

著者 Aviya Maimon,Reut Tsarfaty
発行日 2024-08-13 13:19:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク