Large Legal Fictions: Profiling Legal Hallucinations in Large Language Models

要約

大規模言語モデル (LLM) には法の実務を変革する可能性がありますが、この可能性は法的幻覚の存在によって脅かされています。法的幻覚とは、法的事実と一致しないこれらのモデルからの反応です。
私たちは、独自の一連の法的クエリを使用してこれらの幻覚の程度を調査し、LLM の応答を構造化された法的メタデータと比較し、その一貫性を検査します。
私たちの研究は 4 つの重要な貢献をしています: (1) 私たちは法的幻覚の類型を開発し、この分野の将来の研究に概念的な枠組みを提供します。
(2) これらのモデルにランダムな連邦裁判所の訴訟に関する具体的で検証可能な質問をした場合、法律上の幻覚が驚くほど蔓延しており、ChatGPT 3.5 では 69% の確率で、Llama 2 では 88% の確率で発生することがわかりました。
(3) LLM は、反事実的な質問設定において、ユーザーの間違った法的仮定を修正できないことがよくあることを示します。
(4) 私たちは、LLM が法的な幻覚をいつ引き起こすかを常に予測できるわけではない、または常に知っているわけではないという証拠を提供します。
総合すると、これらの調査結果は、人気のある LLM を法務業務に急速かつ監督なしで組み込むことに対して警告を発します。
経験豊富な弁護士であっても、法的幻覚には常に警戒しなければならず、そのリスクが最も高いのは、LLM から最も恩恵を受ける立場にある人々、つまりプロ弁護士や従来の法的リソースにアクセスできない人々です。

要約(オリジナル)

Large language models (LLMs) have the potential to transform the practice of law, but this potential is threatened by the presence of legal hallucinations — responses from these models that are not consistent with legal facts. We investigate the extent of these hallucinations using an original suite of legal queries, comparing LLMs’ responses to structured legal metadata and examining their consistency. Our work makes four key contributions: (1) We develop a typology of legal hallucinations, providing a conceptual framework for future research in this area. (2) We find that legal hallucinations are alarmingly prevalent, occurring between 69% of the time with ChatGPT 3.5 and 88% with Llama 2, when these models are asked specific, verifiable questions about random federal court cases. (3) We illustrate that LLMs often fail to correct a user’s incorrect legal assumptions in a contra-factual question setup. (4) We provide evidence that LLMs cannot always predict, or do not always know, when they are producing legal hallucinations. Taken together, these findings caution against the rapid and unsupervised integration of popular LLMs into legal tasks. Even experienced lawyers must remain wary of legal hallucinations, and the risks are highest for those who stand to benefit from LLMs the most — pro se litigants or those without access to traditional legal resources.

arxiv情報

著者 Matthew Dahl,Varun Magesh,Mirac Suzgun,Daniel E. Ho
発行日 2024-01-02 17:28:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY パーマリンク