要約
本稿では、インドの法律判例文書に限定して学習させた法律言語モデルのコレクションであるParamanu-Aynを紹介する。この9,700万パラメータの自己回帰(AR)デコーダのみのモデルは、単一のGPUでコンテキストサイズ8,192、わずか185時間でゼロから事前学習され、41.35の効率的なMFUを達成した。また、法律分野に特化したBPEトークナイザーも開発しました。このモデルをパープレキシティとゼロショットタスクを用いて評価したところ、説明を伴う事例判断予測と抽象的な事例要約を行うことができた。Paramanu-AynはLlama-2 7BとGemini-Proよりも72倍小さいにもかかわらず、説明付き事例判断予測タスクのテスト精度を2ポイント近く上回った。ゼロショット抽象的要約では、固定長要約(5000トークン)を生成するデコーダのみのLLMを、BLEUとMETEORメトリクスで10%ポイント以上、BERTScoreで4%ポイント近く上回った。さらに、ゼロショットのコモンセンスベンチマークと数学ベンチマークで評価した結果、Paramanu-Aynは法律文書のみで学習したにもかかわらず、AGIEVAL-AQuA-RATとAGIEVAL-SAT-MathタスクにおいてLlama-1、Llama-2、Falconを凌駕する優れた結果を示しました。また、法律条文生成、法律草案作成、判例要約など、10,763の多様な法律タスクに対して、我々のモデルをインストラクションチューニングした。Paramanu-Ayn-instructモデルは、GPT-3.5-Turboにより、明瞭性、関連性、完全性、法的推論指標において10点満点中8点以上のスコアを獲得した。また、GPT-3.5-Turboでは、明確性、関連性、完全性、法的推論指標において10点満点中8点以上を獲得した。したがって、我々は、強いドメインに特化した生成言語モデル(法律など)に対して、ゼロからドメインに特化した事前学習を行うことは、より費用対効果が高く、環境に優しく、より大規模なモデルとの競争力を維持し、あるいは法律ドメインのタスクにLLMを適応させるよりも優れていると結論付けた。
要約(オリジナル)
In this paper, we present Paramanu-Ayn, a collection of legal language models trained exclusively on Indian legal case documents. This 97-million-parameter Auto-Regressive (AR) decoder-only model was pretrained from scratch with a context size of 8192 on a single GPU for just 185 hours, achieving an efficient MFU of 41.35. We also developed a legal domain specialized BPE tokenizer. We evaluated our model using perplexity and zero-shot tasks: case judgment prediction with explanation and abstractive case summarization. Paramanu-Ayn outperformed Llama-2 7B and Gemini-Pro in case judgment prediction with explanation task on test accuracy by nearly 2 percentage points, despite being 72 times smaller. In zero-shot abstractive summarization, it surpassed decoder-only LLMs generating fixed-length summaries (5000 tokens) by over 10 percentage points in BLEU and METEOR metrics, and by nearly 4 percentage points in BERTScore. Further evaluations on zero-shot commonsense and mathematical benchmarks showed that Paramanu-Ayn excelled despite being trained exclusively on legal documents, outperforming Llama-1, Llama-2, and Falcon on AGIEVAL-AQuA-RAT and AGIEVAL-SAT-Math tasks. We also instruction-tuned our model on 10,763 diverse legal tasks, including legal clause generation, legal drafting, case summarization, etc. The Paramanu-Ayn-instruct model scored above 8 out of 10 in clarity, relevance, completeness, and legal reasoning metrics by GPT-3.5-Turbo. We found that our models, were able to learn drafting knowledge and generalize to draft legal contracts and legal clauses with limited instruction-tuning. Hence, we conclude that for a strong domain-specialized generative language model (such as legal), domain specialized pretraining from scratch is more cost effective, environmentally friendly, and remains competitive with larger models or even better than adapting LLMs for legal domain tasks.
arxiv情報
著者 | Mitodru Niyogi,Arnab Bhattacharya |
発行日 | 2024-10-03 16:01:01+00:00 |
arxivサイト | arxiv_id(pdf) |