要約
引用は科学論文の重要な構成要素です。
科学界は彼らの世代の支援を切望しています。
引用の生成には、2 つの補完的なサブタスクが含まれます。コンテキストの引用価値を判断し、価値がある場合は、引用プレースホルダーに最適な論文候補を提案します。
後者のサブタスクは、ローカル引用推奨 (LCR) と呼ばれます。
この論文では、LCR を達成するための引用を生成するための引用トークン マスキングに基づくカスタム BART 事前トレーニングである CiteBART を提案します。
基本スキームでは、ローカル引用コンテキスト内の引用トークンをマスクして、引用予測を行います。
グローバルなものでは、引用論文のタイトルと要約をローカルな引用コンテキストに連結して、引用トークンを再構築する方法を学習します。
CiteBART は、最小の FullTextPeerRead データセットを除いて、引用推奨ベンチマークにおいて最先端のアプローチを上回ります。
この効果は、Refseer や ArXiv などの大規模なベンチマークで顕著です。
CiteBART の仕組みについての洞察を提供するために、定性分析とアブレーション研究を紹介します。
私たちの分析により、その生成的な性質がゼロショット機能をもたらすことが確認されています。
要約(オリジナル)
Citations are essential building blocks in scientific writing. The scientific community is longing for support in their generation. Citation generation involves two complementary subtasks: Determining the citation worthiness of a context and, if it’s worth it, proposing the best candidate papers for the citation placeholder. The latter subtask is called local citation recommendation (LCR). This paper proposes CiteBART, a custom BART pre-training based on citation token masking to generate citations to achieve LCR. In the base scheme, we mask the citation token in the local citation context to make the citation prediction. In the global one, we concatenate the citing paper’s title and abstract to the local citation context to learn to reconstruct the citation token. CiteBART outperforms state-of-the-art approaches on the citation recommendation benchmarks except for the smallest FullTextPeerRead dataset. The effect is significant in the larger benchmarks, e.g., Refseer and ArXiv. We present a qualitative analysis and an ablation study to provide insights into the workings of CiteBART. Our analyses confirm that its generative nature brings about a zero-shot capability.
arxiv情報
著者 | Ege Yiğit Çelik,Selma Tekir |
発行日 | 2024-12-23 12:58:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google