Evaluating the Correctness of Inference Patterns Used by LLMs for Judgment

要約

このホワイトペーパーでは、人間のドメインの知識に従って、LLMの潜在的な誤った表現を特定するために、法的LLMのケーススタディで判断のために大規模な言語モデル(LLM)が使用する推論パターンを分析する方法を提示します。
言語生成の結果に関する従来の評価とは異なり、一見正しい出力の背後にあるLLMの詳細な推論パターンの正確性を評価することを提案します。
この目的のために、最近の理論的な成果は、相互作用ベースの説明の忠実さのいくつかの数学的保証が証明されているため、LLMが原始的な推論パターンとして使用する入力フレーズ間の相互作用を定量化します。
LLMの詳細な推論パターンを評価するために、一連のメトリックを設計します。
実験は、言語生成の結果が正しいと思われる場合でも、法的判断のためにLLMが使用する推論パターンのかなりの部分が、誤解を招くまたは無関係な論理を表す可能性があることを示しています。

要約(オリジナル)

This paper presents a method to analyze the inference patterns used by Large Language Models (LLMs) for judgment in a case study on legal LLMs, so as to identify potential incorrect representations of the LLM, according to human domain knowledge. Unlike traditional evaluations on language generation results, we propose to evaluate the correctness of the detailed inference patterns of an LLM behind its seemingly correct outputs. To this end, we quantify the interactions between input phrases used by the LLM as primitive inference patterns, because recent theoretical achievements have proven several mathematical guarantees of the faithfulness of the interaction-based explanation. We design a set of metrics to evaluate the detailed inference patterns of LLMs. Experiments show that even when the language generation results appear correct, a significant portion of the inference patterns used by the LLM for the legal judgment may represent misleading or irrelevant logic.

arxiv情報

著者 Lu Chen,Yuxuan Huang,Yixing Li,Dongrui Liu,Qihan Ren,Shuai Zhao,Kun Kuang,Zilong Zheng,Quanshi Zhang
発行日 2025-05-20 15:29:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク