ChatLaw: Open-Source Legal Large Language Model with Integrated External Knowledge Bases

要約

大規模言語モデル (LLM) は、さまざまなドメインの自然言語処理タスクに革命をもたらす可能性を示しており、垂直方向に特化した大規模モデルに対する大きな関心を引き起こしています。
しかし、独自のデータ蓄積を活用して金融分野で進歩を遂げたBloombergGPTやFinGPTなどの独自モデルとは異なり、中国の法律分野にはデジタル変革を促進する同様の大規模な言語モデルがあまりありません。
この論文では、ChatLaw という名前のオープンソースの法的大規模言語モデルを提案します。
データ品質の重要性のため、私たちは法的ドメインの微調整データセットを慎重に設計しました。
さらに、参照データ検索中の法的データスクリーニングにおけるモデル幻覚の問題を克服するために、ベクトルデータベース検索とキーワード検索を組み合わせて、ベクトルデータベース検索のみに依存する不正確さを効果的に低減する方法を導入します。
さらに、参照データに存在するエラーを克服する大規模モデルの能力を強化するセルフアテンション手法を提案し、モデルの幻覚の問題をモデルレベルでさらに最適化し、大規模モデルの問題解決能力を向上させます。
また、モデルとデータの一部を https://github.com/PKU-YuanGroup/ChatLaw でオープンソース化しました。

要約(オリジナル)

Large Language Models (LLMs) have shown the potential to revolutionize natural language processing tasks in various domains, sparking great interest in vertical-specific large models. However, unlike proprietary models such as BloombergGPT and FinGPT, which have leveraged their unique data accumulations to make strides in the finance domain, there hasn’t not many similar large language models in the Chinese legal domain to facilitate its digital transformation. In this paper, we propose an open-source legal large language model named ChatLaw. Due to the importance of data quality, we carefully designed a legal domain fine-tuning dataset. Additionally, to overcome the problem of model hallucinations in legal data screening during reference data retrieval, we introduce a method that combines vector database retrieval with keyword retrieval to effectively reduce the inaccuracy of relying solely on vector database retrieval. Furthermore, we propose a self-attention method to enhance the ability of large models to overcome errors present in reference data, further optimizing the issue of model hallucinations at the model level and improving the problem-solving capabilities of large models. We also open-sourced our model and part of the data at https://github.com/PKU-YuanGroup/ChatLaw.

arxiv情報

著者 Jiaxi Cui,Zongjian Li,Yang Yan,Bohua Chen,Li Yuan
発行日 2023-06-28 10:48:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク