Large Legal Fictions: Profiling Legal Hallucinations in Large Language Models

要約

大規模言語モデル (LLM) は法則を知っていますか?
これらのモデルは、法律実務、教育、研究を強化するためにますます使用されていますが、その革新的な可能性は、法的事実と一致しないテキスト出力である幻覚の存在によって脅かされています。
我々は、これらの幻覚の最初の体系的な証拠を提示し、法域、裁判所、期間、訴訟全体にわたるLLMのさまざまなパフォーマンスを文書化しています。
私たちの仕事は 4 つの重要な貢献をしています。
まず、法的幻覚の類型を開発し、この分野の将来の研究に概念的な枠組みを提供します。
次に、法的な幻覚が驚くほど蔓延しており、これらのモデルにランダムな連邦裁判所の訴訟に関する具体的で検証可能な質問をした場合、ChatGPT 4 では 58% の確率で発生し、Llama 2 では 88% の確率で発生することがわかりました。
第三に、LLM は、反事実的な質問設定においてユーザーの誤った法的仮定を修正できないことが多いことを示します。
第 4 に、LLM が法的幻覚をいつ引き起こすかを常に予測できるわけではない、または常に知っているわけではないという証拠を提供します。
総合すると、私たちの調査結果は、人気のある LLM を法務業務に急速かつ監督なしで統合することに警告を発します。
経験豊富な弁護士であっても、法的幻覚には常に警戒しなければならず、そのリスクが最も高いのは、LLM から最も恩恵を受ける立場にある人々、つまりプロ弁護士や従来の法的リソースにアクセスできない人々です。

要約(オリジナル)

Do large language models (LLMs) know the law? These models are increasingly being used to augment legal practice, education, and research, yet their revolutionary potential is threatened by the presence of hallucinations — textual output that is not consistent with legal facts. We present the first systematic evidence of these hallucinations, documenting LLMs’ varying performance across jurisdictions, courts, time periods, and cases. Our work makes four key contributions. First, we develop a typology of legal hallucinations, providing a conceptual framework for future research in this area. Second, we find that legal hallucinations are alarmingly prevalent, occurring between 58% of the time with ChatGPT 4 and 88% with Llama 2, when these models are asked specific, verifiable questions about random federal court cases. Third, we illustrate that LLMs often fail to correct a user’s incorrect legal assumptions in a contra-factual question setup. Fourth, we provide evidence that LLMs cannot always predict, or do not always know, when they are producing legal hallucinations. Taken together, our findings caution against the rapid and unsupervised integration of popular LLMs into legal tasks. Even experienced lawyers must remain wary of legal hallucinations, and the risks are highest for those who stand to benefit from LLMs the most — pro se litigants or those without access to traditional legal resources.

arxiv情報

著者 Matthew Dahl,Varun Magesh,Mirac Suzgun,Daniel E. Ho
発行日 2024-06-21 15:32:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY パーマリンク