Generating Summaries with Controllable Readability Levels

要約

可読性とは、読者が書かれたテキストをどれだけ簡単に理解できるかを指します。
テキストの複雑さ、主題、読者の背景知識など、いくつかの要因が読みやすさのレベルに影響します。
さまざまな読みやすさのレベルに基づいて要約を生成することは、さまざまな聴衆が知識を活用できるようにするために重要です。
ただし、現在のテキスト生成アプローチには洗練された制御が欠けており、その結果、読者の習熟度レベルに合わせてカスタマイズされていないテキストが生成されます。
この研究では、このギャップを埋め、指定された可読性レベルで概要を生成する手法を研究します。
特定の可読性レベルに焦点を当てた以前の方法 (例: 単純な要約) とは異なり、可読性をきめ細かく制御して要約を生成します。
私たちは、可読性を制御するための 3 つのテキスト生成手法を開発します。(1) 命令ベースの可読性制御、(2) 要求された可読性と観測された可読性の間のギャップを最小限に抑えるための強化学習、(3) 先読みを使用して今後のデコードの可読性を推定するデコード アプローチ
ステップ。
私たちの生成方法は、さまざまな可読性指標と人間の判断によって測定されるニュース要約 (CNN/DM データセット) の可読性制御を大幅に改善し、要約における制御可能な可読性のための強力なベースラインを確立することを示します。

要約(オリジナル)

Readability refers to how easily a reader can understand a written text. Several factors affect the readability level, such as the complexity of the text, its subject matter, and the reader’s background knowledge. Generating summaries based on different readability levels is critical for enabling knowledge consumption by diverse audiences. However, current text generation approaches lack refined control, resulting in texts that are not customized to readers’ proficiency levels. In this work, we bridge this gap and study techniques to generate summaries at specified readability levels. Unlike previous methods that focus on a specific readability level (e.g., lay summarization), we generate summaries with fine-grained control over their readability. We develop three text generation techniques for controlling readability: (1) instruction-based readability control, (2) reinforcement learning to minimize the gap between requested and observed readability and (3) a decoding approach that uses lookahead to estimate the readability of upcoming decoding steps. We show that our generation methods significantly improve readability control on news summarization (CNN/DM dataset), as measured by various readability metrics and human judgement, establishing strong baselines for controllable readability in summarization.

arxiv情報

著者 Leonardo F. R. Ribeiro,Mohit Bansal,Markus Dreyer
発行日 2023-10-16 17:46:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク