要約
関連著作物の自動生成では、非事実的な幻覚を避けるために、出力を引用論文の内容に基づいて行う必要がありますが、科学文書の長さのため、既存の抽象的なアプローチは引用論文 \textit{abstracts} のみを条件としていました。
私たちは、要約が引用生成に常に最適な入力であるとは限らず、この方法でトレーニングされたモデルは幻覚を学習することを示します。
私たちは、要約の代わりに \textit{引用テキスト範囲} (CTS) を条件にすることを提案します。
手動による CTS アノテーションは非常に時間と労力がかかるため、候補 CTS 文の自動 ROUGE ベースのラベル付けを実験し、高価な人間によるアノテーションに代わるのに十分なパフォーマンスを達成し、人間参加型の手法を提案します。
キーワードベースの CTS 検索アプローチにより、引用論文の全文に基づいた引用テキストの生成が有望かつ実用的になります。
要約(オリジナル)
Automatic related work generation must ground their outputs to the content of the cited papers to avoid non-factual hallucinations, but due to the length of scientific documents, existing abstractive approaches have conditioned only on the cited paper \textit{abstracts}. We demonstrate that the abstract is not always the most appropriate input for citation generation and that models trained in this way learn to hallucinate. We propose to condition instead on the \textit{cited text span} (CTS) as an alternative to the abstract. Because manual CTS annotation is extremely time- and labor-intensive, we experiment with automatic, ROUGE-based labeling of candidate CTS sentences, achieving sufficiently strong performance to substitute for expensive human annotations, and we propose a human-in-the-loop, keyword-based CTS retrieval approach that makes generating citation texts grounded in the full text of cited papers both promising and practical.
arxiv情報
著者 | Xiangci Li,Yi-Hui Lee,Jessica Ouyang |
発行日 | 2023-09-12 16:28:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google