要約
\ textit {分解 – verify}のパラダイムに関する現在の研究長い形式のテキストの事実性を評価するためのパラダイムは、通常、分解と検証を単独で扱い、相互作用と潜在的な誤りを見落とします。
既存の分解ポリシー(通常手作りのデモンストレーション)は、下流の検証因子(情報密度を定量化する新しいメトリック)の観点から下流の検証剤とうまく調和していないことがわかります。
バイレベル最適化問題として最適検証のための最適な分解ポリシーを見つけることを策定します。
この強力なNPハードの問題のソリューションを概算するために、検証剤フィードバックを活用して検証剤プロファリーの原子性に対するクレームを動的に分解するポリシーを学習する動的分解を提案します。
実験結果は、動的分解が既存の分解ポリシーよりも優れており、検証信頼度を0.07、精度を0.12(0-1スケールで)、さまざまな検証因子、データセット、および入力クレームの原子力によって平均して0.12(0-1スケール)を改善することを示しています。
要約(オリジナル)
Current research on the \textit{Decompose-Then-Verify} paradigm for evaluating the factuality of long-form text typically treats decomposition and verification in isolation, overlooking their interactions and potential misalignment. We find that existing decomposition policies, typically hand-crafted demonstrations, do not align well with downstream verifiers in terms of atomicity — a novel metric quantifying information density — leading to suboptimal verification results. We formulate finding the optimal decomposition policy for optimal verification as a bilevel optimization problem. To approximate a solution for this strongly NP-hard problem, we propose dynamic decomposition, a reinforcement learning framework that leverages verifier feedback to learn a policy for dynamically decomposing claims to verifier-preferred atomicity. Experimental results show that dynamic decomposition outperforms existing decomposition policies, improving verification confidence by 0.07 and accuracy by 0.12 (on a 0-1 scale) on average across varying verifiers, datasets, and atomcities of input claims.
arxiv情報
著者 | Yining Lu,Noah Ziems,Hy Dang,Meng Jiang |
発行日 | 2025-03-19 15:56:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google