CiteFusion: An Ensemble Framework for Citation Intent Classification Harnessing Dual-Model Binary Couples and SHAP Analyses

要約

学術的引用の根底にある動機を理解することは、研究への影響を評価し、透明な学術コミュニケーションを促進するために重要です。
この研究では、ベンチマークデータセット、SCICITE、ACL-ARCのマルチクラス引用意図分類(CIC)タスクに対処するために設計されたアンサンブルフレームワークであるCiteFusionを紹介します。
このフレームワークは、タスクをバイナリ分類サブタスクに分解し、各引用意図に対して独立して微調整されたScibertおよびXLNetモデルの補完的なペアを使用します。
これらのベースモデルは、フィードフォワードニューラルネットワークメタ分類器を介して集約され、不均衡とデータスカースシナリオの堅牢なパフォーマンスを確保します。
解釈可能性を高めるために、SHAP(Shapley Additive説明)を採用して、ベースモデル間のトークンレベルの貢献と相互作用を分析し、分類ダイナミクスへの透明性を提供します。
さらに、セクションタイトルを入力文に組み込むことにより、構造コンテキストの意味的役割を調査し、分類の精度とモデルの信頼性に大きな影響を与えることを示します。
実験結果は、CiteFusionがSCICITEで89.60%、ACL-ARCで76.24%のMacro-F1スコアで最先端のパフォーマンスを達成することを示しています。
両方のデータセットからの元の意図は、相互運用性と再利用性を確保するために、オントロジー(CITO)オブジェクトのプロパティを引用するためにマッピングされます。
このマッピングは、2つのデータセットラベル間の重複を強調し、理解可能性と再利用性を高めます。
最後に、SCICITEで開発されたCiteFusionモデルを活用する引用意図を分類するWebベースのアプリケーションをリリースします。

要約(オリジナル)

Understanding the motivations underlying scholarly citations is critical for evaluating research impact and fostering transparent scholarly communication. This study introduces CiteFusion, an ensemble framework designed to address the multiclass Citation Intent Classification (CIC) task on benchmark datasets, SciCite and ACL-ARC. The framework decomposes the task into binary classification subtasks, utilizing complementary pairs of SciBERT and XLNet models fine-tuned independently for each citation intent. These base models are aggregated through a feedforward neural network meta-classifier, ensuring robust performance in imbalanced and data-scarce scenarios. To enhance interpretability, SHAP (SHapley Additive exPlanations) is employed to analyze token-level contributions and interactions among base models, providing transparency into classification dynamics. We further investigate the semantic role of structural context by incorporating section titles into input sentences, demonstrating their significant impact on classification accuracy and model reliability. Experimental results show that CiteFusion achieves state-of-the-art performance, with Macro-F1 scores of 89.60% on SciCite and 76.24% on ACL-ARC. The original intents from both datasets are mapped to Citation Typing Ontology (CiTO) object properties to ensure interoperability and reusability. This mapping highlights overlaps between the two datasets labels, enhancing their understandability and reusability. Finally, we release a web-based application that classifies citation intents leveraging CiteFusion models developed on SciCite.

arxiv情報

著者 Lorenzo Paolini,Sahar Vahdati,Angelo Di Iorio,Robert Wardenga,Ivan Heibi,Silvio Peroni
発行日 2025-03-12 11:59:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク