Lawma: The Power of Specialization for Legal Tasks

要約

法文の注釈と分類は、実証的な法的研究の中心的な要素です。
従来、これらのタスクは訓練を受けた研究助手に委任されることがよくありました。
言語モデリングの進歩に動機付けられ、実証法学者は、人間による注釈の多大なコストが軽減されることを期待して、商用モデルの推進にますます目を向けています。
使用が増えているにもかかわらず、大規模な言語モデルを法的業務に最適に利用する方法についての理解は依然として限られています。
私たちは、ほぼすべてが機械学習コミュニティにとって初めての 260 の法律文書分類タスクの包括的な調査を実施します。
ベースラインとして GPT-4 から始めて、GPT-4 が自明ではないが非常に多様なゼロショット精度を備え、法律業務には不十分なパフォーマンスを示すことが多いことを示します。
次に、軽く微調整した Llama 3 モデルが、ほぼすべてのタスクで GPT-4 を大幅に上回り、通常は 2 桁のパーセンテージ ポイントで優れていることを示します。
大きなモデルは小さなモデルよりも微調整によく反応することがわかりました。
高い分類精度を達成するには、数十から数百の例で十分です。
特に、タスクごとに個別のモデルを使用する場合と比較して精度はわずかに低下しますが、260 個のタスクすべてに対して単一のモデルを同時に微調整できます。
私たちの研究は、商用モデルを促すという主流の慣行に代わる実行可能な選択肢を示しています。
いくつかの利用可能なラベル付きデータを伴う具体的な法的タスクの場合、研究者は、微調整されたオープンソース モデルを使用する方が良いでしょう。

要約(オリジナル)

Annotation and classification of legal text are central components of empirical legal research. Traditionally, these tasks are often delegated to trained research assistants. Motivated by the advances in language modeling, empirical legal scholars are increasingly turning to prompting commercial models, hoping that it will alleviate the significant cost of human annotation. Despite growing use, our understanding of how to best utilize large language models for legal tasks remains limited. We conduct a comprehensive study of 260 legal text classification tasks, nearly all new to the machine learning community. Starting from GPT-4 as a baseline, we show that it has non-trivial but highly varied zero-shot accuracy, often exhibiting performance that may be insufficient for legal work. We then demonstrate that a lightly fine-tuned Llama 3 model vastly outperforms GPT-4 on almost all tasks, typically by double-digit percentage points. We find that larger models respond better to fine-tuning than smaller models. A few tens to hundreds of examples suffice to achieve high classification accuracy. Notably, we can fine-tune a single model on all 260 tasks simultaneously at a small loss in accuracy relative to having a separate model for each task. Our work points to a viable alternative to the predominant practice of prompting commercial models. For concrete legal tasks with some available labeled data, researchers are better off using a fine-tuned open-source model.

arxiv情報

著者 Ricardo Dominguez-Olmedo,Vedant Nanda,Rediet Abebe,Stefan Bechtold,Christoph Engel,Jens Frankenreiter,Krishna Gummadi,Moritz Hardt,Michael Livermore
発行日 2024-07-23 16:23:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク