Modeling citation worthiness by using attention-based bidirectional long short-term memory networks and interpretable models

要約

科学者は、自分の主張を裏付けるために科学的情報源を引用する方法を早い段階で学びます。
しかし、場合によっては、科学者が引用箇所をどこに置くべきかを判断するのに困難を抱えたり、さらに悪いことに、出典をまったく引用できなかったりすることがあります。
引用が必要な文章 (つまり、引用価値) を自動的に検出すれば、これらの問題の両方が解決され、より堅牢でよく構築された科学的議論につながる可能性があります。
これまでの研究者は、このタスクに機械学習を適用してきましたが、ディープ ラーニングのアテンション メカニズムなどの最近のアルゴリズム開発を利用していない小規模なデータセットとモデルを使用していました。
私たちは、オープンアクセス出版物から構築された大規模な教師ありデータセットから学習する、非常に正確な深層学習アーキテクチャを開発できるという仮説を立てています。
この研究では、引用が必要な文を検出するためのアテンション メカニズムとコンテキスト情報を備えた双方向長短期記憶 (BiLSTM) ネットワークを提案します。
また、PubMed Open Access Subset に基づいて、以前のデータセットよりも桁違いに大きい新しい大規模データセット (PMOA-CITE) も作成しました。
私たちの実験は、私たちのアーキテクチャが標準 ACL-ARC データセットで最先端のパフォーマンス ($F_{1}=0.507$) を達成し、新しい PMOA-CITE で高いパフォーマンス ($F_{1}=0.856$) を発揮することを示しています。
さらに、これらのデータセット間で学習を伝達できることを示します。
さらに、解釈可能なモデルを使用して、引用を促進および抑制するために特定の言語がどのように使用されるかを明らかにします。
予測を改善するには、セクションと周囲の文が重要であることがわかりました。
私たちはモデルの誤った予測とされるものをさらに調査し、引用行動とソースデータにおける組織的な人的ミスを明らかにしました。
これにより、モデルが提出前およびアーカイブ前の手順中に文書をチェックできるようになります。
私たちは、この新しいデータセット、コード、および Web ベースのツールをコミュニティで利用できるようにします。

要約(オリジナル)

Scientist learn early on how to cite scientific sources to support their claims. Sometimes, however, scientists have challenges determining where a citation should be situated — or, even worse, fail to cite a source altogether. Automatically detecting sentences that need a citation (i.e., citation worthiness) could solve both of these issues, leading to more robust and well-constructed scientific arguments. Previous researchers have applied machine learning to this task but have used small datasets and models that do not take advantage of recent algorithmic developments such as attention mechanisms in deep learning. We hypothesize that we can develop significantly accurate deep learning architectures that learn from large supervised datasets constructed from open access publications. In this work, we propose a Bidirectional Long Short-Term Memory (BiLSTM) network with attention mechanism and contextual information to detect sentences that need citations. We also produce a new, large dataset (PMOA-CITE) based on PubMed Open Access Subset, which is orders of magnitude larger than previous datasets. Our experiments show that our architecture achieves state of the art performance on the standard ACL-ARC dataset ($F_{1}=0.507$) and exhibits high performance ($F_{1}=0.856$) on the new PMOA-CITE. Moreover, we show that it can transfer learning across these datasets. We further use interpretable models to illuminate how specific language is used to promote and inhibit citations. We discover that sections and surrounding sentences are crucial for our improved predictions. We further examined purported mispredictions of the model, and uncovered systematic human mistakes in citation behavior and source data. This opens the door for our model to check documents during pre-submission and pre-archival procedures. We make this new dataset, the code, and a web-based tool available to the community.

arxiv情報

著者 Tong Zeng,Daniel E. Acuna
発行日 2024-05-20 17:45:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク