SaulLM-7B: A pioneering Large Language Model for Law

要約

このペーパーでは、法的領域に合わせて調整された大規模言語モデル (LLM) である SaulLM-7B を紹介します。
70 億のパラメータを備えた SaulLM-7B は、法的な文章の理解と生成を目的として明示的に設計された初の LLM です。
Mistral 7B アーキテクチャを基盤として活用し、SaulLM-7B は 300 億トークンを超える英語の法的コーパスでトレーニングされています。
SaulLM-7B は、法的文書の理解と処理において最先端の技能を発揮します。
さらに、法律データセットを活用して法律業務における SaulLM-7B のパフォーマンスをさらに向上させる、新しい指導の微調整方法を紹介します。
SaulLM-7B は CC-BY-SA-4.0 ライセンスに基づいてリリースされています。

要約(オリジナル)

In this paper, we introduce SaulLM-7B, a large language model (LLM) tailored for the legal domain. With 7 billion parameters, SaulLM-7B is the first LLM designed explicitly for legal text comprehension and generation. Leveraging the Mistral 7B architecture as its foundation, SaulLM-7B is trained on an English legal corpus of over 30 billion tokens. SaulLM-7B exhibits state-of-the-art proficiency in understanding and processing legal documents. Additionally, we present a novel instructional fine-tuning method that leverages legal datasets to further enhance SaulLM-7B’s performance in legal tasks. SaulLM-7B is released under the CC-BY-SA-4.0 License.

arxiv情報

著者 Pierre Colombo,Telmo Pessoa Pires,Malik Boudiaf,Dominic Culver,Rui Melo,Caio Corro,Andre F. T. Martins,Fabrizio Esposito,Vera Lúcia Raposo,Sofia Morgado,Michael Desa
発行日 2024-03-06 17:42:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク