要約
この論文では、複雑なマルチステップ推論タスクで標準のオープンウェイトLLMSのパフォーマンスを強化するために、回答セットプログラミング(ASP)とともに、コンフォーマル言語モデリング(CLM)の使用を調べます。
空間的推論が必要なStepGameデータセットを使用して、LLMからASPプログラムのセットを生成するためにCLMを適用し、出力の正確性に関する統計的保証を提供します。
実験結果は、CLMが標準サンプリング方法を使用するベースラインモデルを大幅に上回り、異なるレベルの推論複雑さにわたって大幅な精度の改善を達成することを示しています。
さらに、LLM-As-Judgeメトリックは、特に構造的および論理的に正しいASP出力を評価する際に、CLMのパフォーマンスを向上させます。
ただし、多様なキャリブレーションセットを使用してCLMを較正すると、タスクの一般化性が改善されず、より長い推論ステップが必要であり、より複雑なタスクの処理の制限を示しています。
要約(オリジナル)
In this paper, we examine the use of Conformal Language Modelling (CLM) alongside Answer Set Programming (ASP) to enhance the performance of standard open-weight LLMs on complex multi-step reasoning tasks. Using the StepGame dataset, which requires spatial reasoning, we apply CLM to generate sets of ASP programs from an LLM, providing statistical guarantees on the correctness of the outputs. Experimental results show that CLM significantly outperforms baseline models that use standard sampling methods, achieving substantial accuracy improvements across different levels of reasoning complexity. Additionally, the LLM-as-Judge metric enhances CLM’s performance, especially in assessing structurally and logically correct ASP outputs. However, calibrating CLM with diverse calibration sets did not improve generalizability for tasks requiring much longer reasoning steps, indicating limitations in handling more complex tasks.
arxiv情報
著者 | Navdeep Kaur,Lachlan McPheat,Alessandra Russo,Anthony G Cohn,Pranava Madhyastha |
発行日 | 2025-03-07 14:10:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google