LARGE: Legal Retrieval Augmented Generation Evaluation Tool

要約

最近、大規模な言語モデル(LLMS)の能力を高めるための検索上位生成(RAG)システムを構築することが一般的な慣行となっています。
特に法的領域では、以前の司法決定は、(取得した)以前の文書に基づいて決定を下すことの重要性を強調する凝視決定の教義の下で重要な役割を果たします。
ただし、RAGシステムの全体的なパフォーマンスは、多くのコンポーネントに依存します。(1)検索コーパス、(2)検索アルゴリズム、(3)再ランカー、(4)LLMバックボーン、および(5)評価指標に依存します。
ここでは、法的領域に焦点を当てたRAGシステムの全体的な評価のためのオープンソースツールであるLrageを提案します。
LrageはGUIおよびCLIインターフェイスを提供して、シームレスな実験を促進し、前述の5つのコンポーネントの変化が全体的な精度にどのように影響するかを調査します。
上記の5つのコンポーネントを変化させるときに全体的な精度がどのように変化するかを示すことにより、韓国語(KBL)、英語(LegalBench)、および中国(Lawbench)を含む多言語の合法的なベンチを使用してLrageを検証しました。
ソースコードは、https://github.com/hoorangyee/lrageで入手できます。

要約(オリジナル)

Recently, building retrieval-augmented generation (RAG) systems to enhance the capability of large language models (LLMs) has become a common practice. Especially in the legal domain, previous judicial decisions play a significant role under the doctrine of stare decisis which emphasizes the importance of making decisions based on (retrieved) prior documents. However, the overall performance of RAG system depends on many components: (1) retrieval corpora, (2) retrieval algorithms, (3) rerankers, (4) LLM backbones, and (5) evaluation metrics. Here we propose LRAGE, an open-source tool for holistic evaluation of RAG systems focusing on the legal domain. LRAGE provides GUI and CLI interfaces to facilitate seamless experiments and investigate how changes in the aforementioned five components affect the overall accuracy. We validated LRAGE using multilingual legal benches including Korean (KBL), English (LegalBench), and Chinese (LawBench) by demonstrating how the overall accuracy changes when varying the five components mentioned above. The source code is available at https://github.com/hoorangyee/LRAGE.

arxiv情報

著者 Minhu Park,Hongseok Oh,Eunkyung Choi,Wonseok Hwang
発行日 2025-04-02 15:45:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク