Legal Documents Drafting with Fine-Tuned Pre-Trained Large Language Model

要約

大規模言語モデル (LLM) の開発により、事前トレーニングされた LLM を微調整することが、自然言語処理の下流タスクを解決するための主流のパラダイムになりました。
ただし、法律分野で言語モデルをトレーニングするには、言語モデルが法律用語や法律文書の形式の特殊性を学習できるように、多数の法律文書が必要です。
典型的な NLP アプローチは通常、トレーニングのために手動で注釈が付けられた多くのデータセットに依存します。
ただし、法律分野のアプリケーションでは、手動で注釈が付けられた大量のデータセットを入手することが困難であるため、法的文書の作成タスクに適用される一般的な方法が制限されます。
この論文の実験結果は、中国語の単語分割を行わずに注釈のない多数の法律文書を活用して大規模な言語モデルを微調整できるだけでなく、さらに重要なことに、事前にトレーニングされた言語モデルを微調整できることを示しています。
ローカル コンピューター上で LLM を使用すると、法的文書草案の生成タスクを実行すると同時に、情報プライバシーの保護と情報セキュリティ問題の改善を実現できます。

要約(オリジナル)

With the development of large-scale Language Models (LLM), fine-tuning pre-trained LLM has become a mainstream paradigm for solving downstream tasks of natural language processing. However, training a language model in the legal field requires a large number of legal documents so that the language model can learn legal terminology and the particularity of the format of legal documents. The typical NLP approaches usually rely on many manually annotated data sets for training. However, in the legal field application, it is difficult to obtain a large number of manually annotated data sets, which restricts the typical method applied to the task of drafting legal documents. The experimental results of this paper show that not only can we leverage a large number of annotation-free legal documents without Chinese word segmentation to fine-tune a large-scale language model, but more importantly, it can fine-tune a pre-trained LLM on the local computer to achieve the generating legal document drafts task, and at the same time achieve the protection of information privacy and to improve information security issues.

arxiv情報

著者 Chun-Hsien Lin,Pu-Jen Cheng
発行日 2024-06-06 16:00:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク