GRAF: Graph Retrieval Augmented by Facts for Romanian Legal Multi-Choice Question Answering

要約

事前に訓練された言語モデル(PLMS)は、近年驚くべきパフォーマンスを示しており、NLPの研究と産業の新しいパラダイムを設定しています。
法的領域は、そのテキストの性質のために、NLPコミュニティからある程度の注目を集めています。
このドメインからのいくつかのタスクは、質問回答(QA)タスクで表されます。
この作業では、低リソース言語の法的領域の複数選択QA(MCQA)を探ります。
この作業の貢献は多倍です。
最初に、3つの異なる試験と合計10,836の質問を含む最初の公然と利用可能なルーマニアの法的MCQAデータセットであるJuroを紹介します。
このデータセットに加えて、763時間のスパンから修正された合計93の異なるドキュメントを持つ法律の組織化されたコーパスであるCrolを紹介します。
さらに、私たちはルーマニア語の知識グラフ(kg)であるローログを提案した最初の人物であり、このkgは前述のコーパスから派生しています。
最後に、MCQAの新しいアプローチを提案します。これは、事実(GRAF)によって増強されたグラフ検索(GRAF)を提案します。これは、一般に受け入れられているSOTAメソッドで競争結果を達成し、ほとんどの設定でそれらを超えています。

要約(オリジナル)

Pre-trained Language Models (PLMs) have shown remarkable performances in recent years, setting a new paradigm for NLP research and industry. The legal domain has received some attention from the NLP community partly due to its textual nature. Some tasks from this domain are represented by question-answering (QA) tasks. This work explores the legal domain Multiple-Choice QA (MCQA) for a low-resource language. The contribution of this work is multi-fold. We first introduce JuRO, the first openly available Romanian legal MCQA dataset, comprising three different examinations and a number of 10,836 total questions. Along with this dataset, we introduce CROL, an organized corpus of laws that has a total of 93 distinct documents with their modifications from 763 time spans, that we leveraged in this work for Information Retrieval (IR) techniques. Moreover, we are the first to propose Law-RoG, a Knowledge Graph (KG) for the Romanian language, and this KG is derived from the aforementioned corpus. Lastly, we propose a novel approach for MCQA, Graph Retrieval Augmented by Facts (GRAF), which achieves competitive results with generally accepted SOTA methods and even exceeds them in most settings.

arxiv情報

著者 Cristian-George Crăciun,Răzvan-Alexandru Smădu,Dumitru-Clementin Cercel,Mihaela-Claudia Cercel
発行日 2025-06-05 17:37:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク