Evaluating Test-Time Scaling LLMs for Legal Reasoning: OpenAI o1, DeepSeek-R1, and Beyond

要約

最近、Deepseek-R1やOpenai O1などの大規模な言語モデル(LLMS)のテスト時間スケーリングは、特に推論において、さまざまなドメインとタスクにわたって並外れた機能を実証しています。
これらのモデルは一般的な言語タスクで印象的なパフォーマンスを示していますが、法律のような専門分野での有効性は不明のままです。
これに対処するために、中国と英語の両方の法的タスクをカバーするさまざまな法的シナリオでLLMの予備評価を提示します。
私たちの分析には、9つのLLMSと17の法的タスクが含まれており、多国籍の法的判断や法的議論の推論など、新しく公開されたより複雑な課題に焦点を当てています。
私たちの調査結果は、DeepSeek-R1とOpenai O1が最も強力なモデルの1つであるにもかかわらず、彼らの法的推論能力がまだ欠けていることを示しています。
具体的には、これらのモデルは、7つの中国の法的推論タスクで80 \%未満で、2つの英語の法的推論タスクで80 \%未満のスコアを獲得しています。
これは、最も高度な推論モデルの中でさえ、法的推論能力が未発達のままであることを示唆しています。

要約(オリジナル)

Recently, Test-Time Scaling Large Language Models (LLMs), such as DeepSeek-R1 and OpenAI o1, have demonstrated exceptional capabilities across various domains and tasks, particularly in reasoning. While these models have shown impressive performance on general language tasks, their effectiveness in specialized fields like legal remains unclear. To address this, we present a preliminary evaluation of LLMs in various legal scenarios, covering both Chinese and English legal tasks. Our analysis includes 9 LLMs and 17 legal tasks, with a focus on newly published and more complex challenges such as multi-defendant legal judgments and legal argument reasoning. Our findings indicate that, despite DeepSeek-R1 and OpenAI o1 being among the most powerful models, their legal reasoning capabilities are still lacking. Specifically, these models score below 80\% on seven Chinese legal reasoning tasks and below 80\% on two English legal reasoning tasks. This suggests that, even among the most advanced reasoning models, legal reasoning abilities remain underdeveloped.

arxiv情報

著者 Yaoyao Yu,Leilei Gan,Yinghao Hu,Bin Wei,Kun Kuang,Fei Wu
発行日 2025-03-20 11:14:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク