要約
法律実務では、手続き規則を注意深く守る必要がある。米国では、『ブルーブック』に記載されている規則ほど複雑なものはほとんどない:A Uniform System of Citation)にあるものほど複雑なものはない。このシステムの500ページ以上にも及ぶ複雑な書式指示を遵守することは、何千人もの学生ローレビュー編集者の存在意義であり、あらゆる法律家の悩みの種である。大規模言語モデル(LLM)がこのような複雑なシステムの手順を遵守できるかどうかを評価するために、我々は866のBluebookタスクのオリジナルデータセットを構築し、OpenAI、Anthropic、Google、Meta、DeepSeekのフラッグシップLLMをテストする。我々は、(1)これらのモデルが完全に準拠したBluebookの引用を生成するのは、69%から74%に過ぎないこと、(2)Bluebookの基礎となるルールシステムのコンテキスト内学習は、77%までしか精度を上げないことを示す。これらの結果は、手続きに忠実であることが最も重要である法律の側面を自動化するために、既製のLLMを使用することに注意を促すものである。
要約(オリジナル)
Legal practice requires careful adherence to procedural rules. In the United States, few are more complex than those found in The Bluebook: A Uniform System of Citation. Compliance with this system’s 500+ pages of byzantine formatting instructions is the raison d’etre of thousands of student law review editors and the bete noire of lawyers everywhere. To evaluate whether large language models (LLMs) are able to adhere to the procedures of such a complicated system, we construct an original dataset of 866 Bluebook tasks and test flagship LLMs from OpenAI, Anthropic, Google, Meta, and DeepSeek. We show (1) that these models produce fully compliant Bluebook citations only 69%-74% of the time and (2) that in-context learning on the Bluebook’s underlying system of rules raises accuracy only to 77%. These results caution against using off-the-shelf LLMs to automate aspects of the law where fidelity to procedure is paramount.
arxiv情報
著者 | Matthew Dahl |
発行日 | 2025-05-05 16:18:07+00:00 |
arxivサイト | arxiv_id(pdf) |