Retrieval augmentation of large language models for lay language generation

要約

最近の一般言語生成システムは、健康情報のアクセシビリティを高めるために、並列コーパスでトレーニングされた Transformer モデルを使用しています。
ただし、これらのモデルの適用可能性は、利用可能なコーパスの限られたサイズと局所的な範囲によって制限されます。
私たちは、一般言語生成のための最大 (63,000 ペア) かつ最も広範囲 (12 ジャーナル) の並列コーパスである CELLS を紹介します。
要約とそれに対応する一般言語の概要は、分野の専門家によって書かれており、データセットの品質が保証されています。
さらに、専門家が作成した平易な言葉による要約の定性的評価により、背景説明がアクセシビリティを高めるための重要な戦略であることが明らかになりました。
このような説明は、ソースに存在しないコンテンツを追加することで単純化を超えるため、ニューラル モデルを生成するのは困難です。
私たちは、背景説明の生成と元の要約の簡素化という、一般言語生成における重要な課題に対処するために、CELLS から 2 つの特殊なペアのコーパスを導出します。
背景説明生成のタスクに直感的に適合するものとして検索拡張モデルを採用し、事実の正確さを維持しながら要約の品質と簡潔さの向上を示します。
まとめると、この研究は、一般向け言語生成の背景説明に関する最初の包括的な研究を提示し、科学的知識をより幅広い聴衆に広める道を切り開きます。
CELLS は https://github.com/LinguisticAnomalies/pls_retrieval で公開されています。

要約(オリジナル)

Recent lay language generation systems have used Transformer models trained on a parallel corpus to increase health information accessibility. However, the applicability of these models is constrained by the limited size and topical breadth of available corpora. We introduce CELLS, the largest (63k pairs) and broadest-ranging (12 journals) parallel corpus for lay language generation. The abstract and the corresponding lay language summary are written by domain experts, assuring the quality of our dataset. Furthermore, qualitative evaluation of expert-authored plain language summaries has revealed background explanation as a key strategy to increase accessibility. Such explanation is challenging for neural models to generate because it goes beyond simplification by adding content absent from the source. We derive two specialized paired corpora from CELLS to address key challenges in lay language generation: generating background explanations and simplifying the original abstract. We adopt retrieval-augmented models as an intuitive fit for the task of background explanation generation, and show improvements in summary quality and simplicity while maintaining factual correctness. Taken together, this work presents the first comprehensive study of background explanation for lay language generation, paving the path for disseminating scientific knowledge to a broader audience. CELLS is publicly available at: https://github.com/LinguisticAnomalies/pls_retrieval.

arxiv情報

著者 Yue Guo,Wei Qiu,Gondy Leroy,Sheng Wang,Trevor Cohen
発行日 2024-01-25 09:30:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク