Exploring Large Language Models and Hierarchical Frameworks for Classification of Large Unstructured Legal Documents


私たちは、MESc と呼ばれる深層学習ベースの階層フレームワークを使用して、これらの大規模な法的文書の分類と構造情報の欠如を調査します。
具体的には、ドキュメントを部分に分割して、カスタムの微調整された大規模言語モデルの最後の 4 つの層からその埋め込みを抽出し、教師なしクラスタリングを通じてその構造を近似しようとします。
これを別のトランスフォーマー エンコーダー レイヤーのセットで使用して、チャンク間の表現を学習します。
MESc の階層フレームワークを使用して、数十億のパラメータ (GPT-Neo および GPT-J) を備えた大規模言語モデル (LLM) の適応性を分析し、法律文書に対するスタンドアロンのパフォーマンスと比較します。
また、ドメイン内 (法的) 転移学習能力と、MESc の最後の層からの埋め込みを組み合わせた場合の影響についても研究します。
私たちは、ILDC データセットと LexGLUE データセットのサブセットを使用して、インド、欧州連合、および米国の法的文書に対する広範な実験とアブレーション研究によって、これらの方法とその有効性をテストします。
私たちのアプローチは、以前の最先端の方法と比較して、最小で約 2 ポイントの合計パフォーマンスの向上を達成します。


Legal judgment prediction suffers from the problem of long case documents exceeding tens of thousands of words, in general, and having a non-uniform structure. Predicting judgments from such documents becomes a challenging task, more so on documents with no structural annotation. We explore the classification of these large legal documents and their lack of structural information with a deep-learning-based hierarchical framework which we call MESc; ‘Multi-stage Encoder-based Supervised with-clustering’; for judgment prediction. Specifically, we divide a document into parts to extract their embeddings from the last four layers of a custom fine-tuned Large Language Model, and try to approximate their structure through unsupervised clustering. Which we use in another set of transformer encoder layers to learn the inter-chunk representations. We analyze the adaptability of Large Language Models (LLMs) with multi-billion parameters (GPT-Neo, and GPT-J) with the hierarchical framework of MESc and compare them with their standalone performance on legal texts. We also study their intra-domain(legal) transfer learning capability and the impact of combining embeddings from their last layers in MESc. We test these methods and their effectiveness with extensive experiments and ablation studies on legal documents from India, the European Union, and the United States with the ILDC dataset and a subset of the LexGLUE dataset. Our approach achieves a minimum total performance gain of approximately 2 points over previous state-of-the-art methods.


著者 Nishchal Prasad,Mohand Boughanem,Taoufiq Dkaki
発行日 2024-03-11 16:24:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク