要約
引用の推奨は、特定のテキストに基づいて適切な引用を見つけるタスクです。
このタスクのために提案されたデータセットは主にいくつかの科学分野で構成されており、法律などのいくつかの中核的な分野が欠けています。
さらに、引用の推奨は、非学術的な法律論文を利用して、裏付けとなる議論を特定するために法律分野内で使用されます。
既存の研究の制限を軽減するために、私たちは引用推奨のタスクのために最初の学術的な法的データセットを収集します。
また、最先端のモデルを使用した実験を実施し、このデータセットでのパフォーマンスを比較します。
この研究は、BM25 が法的引用の推奨タスクの強力なベンチマークである一方で、最も効果的な方法は、BM25+ によるプリフェッチとそれに続く SciNCL による再ランキングを伴う 2 段階のプロセスの実装を含み、これによりパフォーマンスが向上することを示唆しています。
ベースラインは 0.26 から 0.30 MAP@10 です。
さらに、微調整により、事前トレーニングされたモデルのパフォーマンスが大幅に向上します。これは、これらのモデルのトレーニング データに法律条項を含めることの重要性を示しています。
要約(オリジナル)
Citation recommendation is the task of finding appropriate citations based on a given piece of text. The proposed datasets for this task consist mainly of several scientific fields, lacking some core ones, such as law. Furthermore, citation recommendation is used within the legal domain to identify supporting arguments, utilizing non-scholarly legal articles. In order to alleviate the limitations of existing studies, we gather the first scholarly legal dataset for the task of citation recommendation. Also, we conduct experiments with state-of-the-art models and compare their performance on this dataset. The study suggests that, while BM25 is a strong benchmark for the legal citation recommendation task, the most effective method involves implementing a two-step process that entails pre-fetching with BM25+, followed by re-ranking with SciNCL, which enhances the performance of the baseline from 0.26 to 0.30 MAP@10. Moreover, fine-tuning leads to considerable performance increases in pre-trained models, which shows the importance of including legal articles in the training data of these models.
arxiv情報
著者 | Doğukan Arslan,Saadet Sena Erdoğan,Gülşen Eryiğit |
発行日 | 2023-11-10 07:11:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google