要約
事前トレーニング済み言語モデル (PLM) は近年目覚ましいパフォーマンスを示し、NLP 研究と業界に新しいパラダイムを確立しました。
法律分野は、そのテキスト的な性質もあり、NLP コミュニティからある程度の注目を集めています。
このドメインの一部のタスクは、質問応答 (QA) タスクとして表されます。
この研究では、低リソース言語の法的領域の多肢選択 QA (MCQA) を調査します。
この研究の貢献は多岐にわたります。
最初に、3 つの異なる検査と合計 10,836 の質問で構成される、初の公的に利用可能なルーマニアの法的 MCQA データセットである JuRO を紹介します。
このデータセットとともに、763 のタイム スパンからの変更を含む合計 93 の個別の文書を含む、組織化された法律コーパスである CROL を紹介します。この作業では、情報検索 (IR) 技術に利用しました。
さらに、ルーマニア語のナレッジグラフ (KG) である Law-RoG を初めて提案しました。この KG は前述のコーパスから派生しています。
最後に、MCQA の新しいアプローチである Graph Retrieval Augmented by Facts (GRAF) を提案します。これは、一般に受け入れられている SOTA 手法と同等の結果を達成し、ほとんどの設定でそれを上回ります。
要約(オリジナル)
Pre-trained Language Models (PLMs) have shown remarkable performances in recent years, setting a new paradigm for NLP research and industry. The legal domain has received some attention from the NLP community partly due to its textual nature. Some tasks from this domain are represented by question-answering (QA) tasks. This work explores the legal domain Multiple-Choice QA (MCQA) for a low-resource language. The contribution of this work is multi-fold. We first introduce JuRO, the first openly available Romanian legal MCQA dataset, comprising three different examinations and a number of 10,836 total questions. Along with this dataset, we introduce CROL, an organized corpus of laws that has a total of 93 distinct documents with their modifications from 763 time spans, that we leveraged in this work for Information Retrieval (IR) techniques. Moreover, we are the first to propose Law-RoG, a Knowledge Graph (KG) for the Romanian language, and this KG is derived from the aforementioned corpus. Lastly, we propose a novel approach for MCQA, Graph Retrieval Augmented by Facts (GRAF), which achieves competitive results with generally accepted SOTA methods and even exceeds them in most settings.
arxiv情報
著者 | Cristian-George Crăciun,Răzvan-Alexandru Smădu,Dumitru-Clementin Cercel,Mihaela-Claudia Cercel |
発行日 | 2024-12-05 12:37:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google