要約
GPT-4、Claude、{PaLM 2} などの一般に公開されている最良の LLM は、現在、基本的な法的テキストの処理ではパフォーマンスが低いことがわかりました。
私たちは、弁護士やパラリーガルが LLM にゼロショットで処理することを期待するタスクで構成されるベンチマークを導入します。たとえば、証言録取書の行や契約書のサブセクションのテキストを検索するなどです。
このベンチマークにおける LLM のパフォーマンスの低さは、法律実務における LLM の信頼性に疑問を投げかけます。
ただし、これらのタスクを微調整することで、テスト セットでは小規模なモデルでもほぼ完璧なパフォーマンスが得られ、関連する法的タスクのパフォーマンスも向上します。
これらの結果は、ドメインに必要な多くの単純な動作は、対象分野の専門家による追加の関与がなければ、基本的な LLM には存在しない可能性があることを示唆しています。
要約(オリジナル)
We find that the best publicly available LLMs like GPT-4, Claude, and {PaLM 2} currently perform poorly at basic legal text handling. We introduce a benchmark consisting of tasks that lawyers and paralegals would expect LLMs to handle zero-shot, such as looking up the text at a line of a witness deposition or at a subsection of a contract. LLMs’ poor performance on this benchmark casts into doubt their reliability as-is for legal practice. However, fine-tuning for these tasks brings even a smaller model to near-perfect performance on our test set and also raises performance on a related legal task. These results suggest that many simple behaviors needed for a domain may not be present in foundational LLMs, without additional engagement from subject matter experts.
arxiv情報
著者 | Andrew Blair-Stanek,Nils Holzenberger,Benjamin Van Durme |
発行日 | 2024-02-28 14:46:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google