NESTLE: a No-Code Tool for Statistical Analysis of Legal Corpus

要約

大規模な法的コーパスの統計分析により、貴重な法的洞察が得られます。
このような分析では、(1) 文書検索ツールを使用してコーパスのサブセットを選択し、(2) 情報抽出 (IE) システムを使用してテキストを構造化し、(3) 統計分析のためにデータを視覚化する必要があります。
各プロセスには特殊なツールまたはプログラミング スキルが必要ですが、包括的な統合された「ノーコード」ツールは利用できませんでした。
特にIEの場合、対象となる情報がIEシステムのオントロジーにあらかじめ定義されていない場合は、独自のシステムを構築する必要があります。
ここでは、法的コーパスの大規模な統計分析のためのノーコードツールである NESTLE を提供します。
NESTLE を使用すると、ユーザーは、細かいレベルの制御のための付属の補助 GUI を備えたチャット インターフェイスを介して、ターゲット ドキュメントの検索、情報の抽出、構造化データの視覚化をすべて行うことができます。
NESTLE は、検索エンジン、エンドツーエンド IE システム、およびコンポーネント全体を結合してチャット インターフェイスを提供するラージ言語モデル (LLM) という 3 つの主要コンポーネントで構成されます。
LLM とエンドツーエンドの IE システムを活用した NESTLE は、IE システムで事前定義されていないあらゆるタイプの情報を抽出でき、コードを 1 行も記述することなく、無制限にカスタマイズ可能なコーパスの統計分析の可能性を開きます。
カスタムのエンドツーエンド IE システムの使用により、大規模なコーパスでの高速かつ低コストの IE も可能になります。
私たちは、LEXGLUE からの 15 の韓国の先行 IE タスクと 3 つの法的テキスト分類タスクでシステムを検証しました。
包括的な実験により、NESTLE が 4 つの人間ラベル付きサンプルと 192 個の LLM ラベル付きサンプルで内部 IE モジュールをトレーニングすることにより、GPT-4 と同等のパフォーマンスを達成できることが明らかになりました。
詳細な分析により、このようなシステムを構築する際の精度、時間、コスト間のトレードオフに関する洞察が得られます。

要約(オリジナル)

The statistical analysis of large scale legal corpus can provide valuable legal insights. For such analysis one needs to (1) select a subset of the corpus using document retrieval tools, (2) structuralize text using information extraction (IE) systems, and (3) visualize the data for the statistical analysis. Each process demands either specialized tools or programming skills whereas no comprehensive unified ‘no-code’ tools have been available. Especially for IE, if the target information is not predefined in the ontology of the IE system, one needs to build their own system. Here we provide NESTLE, a no code tool for large-scale statistical analysis of legal corpus. With NESTLE, users can search target documents, extract information, and visualize the structured data all via the chat interface with accompanying auxiliary GUI for the fine-level control. NESTLE consists of three main components: a search engine, an end-to-end IE system, and a Large Language Model (LLM) that glues the whole components together and provides the chat interface. Powered by LLM and the end-to-end IE system, NESTLE can extract any type of information that has not been predefined in the IE system opening up the possibility of unlimited customizable statistical analysis of the corpus without writing a single line of code. The use of the custom end-to-end IE system also enables faster and low-cost IE on large scale corpus. We validate our system on 15 Korean precedent IE tasks and 3 legal text classification tasks from LEXGLUE. The comprehensive experiments reveal NESTLE can achieve GPT-4 comparable performance by training the internal IE module with 4 human-labeled, and 192 LLM-labeled examples. The detailed analysis provides the insight on the trade-off between accuracy, time, and cost in building such system.

arxiv情報

著者 Kyoungyeon Cho,Seungkum Han,Wonseok Hwang
発行日 2023-09-08 06:23:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク