InfoLossQA: Characterizing and Recovering Information Loss in Text Simplification

要約

テキストの簡略化は、専門テキストを一般の人が理解しやすくすることを目的としていますが、多くの場合、情報が削除され、曖昧になってしまいます。
この研究では、単純化によって引き起こされる情報損失を質問と回答 (QA) ペアの形式で特徴付け、回復するためのフレームワークである InfoLossQA を提案しています。
Question Under Discussion の理論に基づいて、QA ペアは読者がテキストについての知識を深めるのに役立つように設計されています。
このフレームワークを使ってさまざまな実験を行っています。
まず、医学研究の科学的要約の 104 の LLM 簡略化から派生した、言語学者が厳選した 1,000 の QA ペアのデータセットを収集します。
このデータを分析したところ、情報損失が頻繁に発生しており、QA ペアがどのような情報が失われたかについての概要が得られることが明らかになりました。
次に、このタスクのために 2 つの方法を考案します。それは、オープンソースおよび商用言語モデルのエンドツーエンド プロンプトと、自然言語推論パイプラインです。
QA ペアの正確さと言語的適合性を考慮した新しい評価フレームワークを使用した私たちの専門家による評価では、モデルが情報損失を確実に特定し、情報損失を構成するものに人間と同様の基準を適用するのに苦労していることが明らかになりました。

要約(オリジナル)

Text simplification aims to make technical texts more accessible to laypeople but often results in deletion of information and vagueness. This work proposes InfoLossQA, a framework to characterize and recover simplification-induced information loss in form of question-and-answer (QA) pairs. Building on the theory of Question Under Discussion, the QA pairs are designed to help readers deepen their knowledge of a text. We conduct a range of experiments with this framework. First, we collect a dataset of 1,000 linguist-curated QA pairs derived from 104 LLM simplifications of scientific abstracts of medical studies. Our analyses of this data reveal that information loss occurs frequently, and that the QA pairs give a high-level overview of what information was lost. Second, we devise two methods for this task: end-to-end prompting of open-source and commercial language models, and a natural language inference pipeline. With a novel evaluation framework considering the correctness of QA pairs and their linguistic suitability, our expert evaluation reveals that models struggle to reliably identify information loss and applying similar standards as humans at what constitutes information loss.

arxiv情報

著者 Jan Trienes,Sebastian Joseph,Jörg Schlötterer,Christin Seifert,Kyle Lo,Wei Xu,Byron C. Wallace,Junyi Jessy Li
発行日 2024-06-04 13:36:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク