要約
言語モデルの出力の正確性を検証する研究が増えています。
同時に、LM は推論を必要とする複雑なクエリに取り組むために使用されています。
複雑な推論設定での LM 出力の検証に焦点を当てた、挑戦的なベンチマークである CoverBench を紹介します。
この目的で使用できるデータセットは、多くの場合、特定のユースケース (財務表など) を対象とした他の複雑な推論タスク (QA など) 用に設計されており、そのようなベンチマークを収集するには、変換、ネガティブ サンプリング、および具体的な例の選択が必要です。
CoverBench は、さまざまなドメイン、推論の種類、比較的長い入力、および利用可能なテーブルの複数の表現や一貫したスキーマなどのさまざまな標準化における複雑なクレーム検証に対する多様な評価を提供します。
ラベルノイズが低いレベルであることを保証するために、データの品質を手動で精査します。
最後に、CoverBench が挑戦的であり、非常に大きなヘッドルームがあることを示すために、さまざまな競合ベースライン結果を報告します。
データは https://huggingface.co/datasets/google/coverbench で入手できます。
要約(オリジナル)
There is a growing line of research on verifying the correctness of language models’ outputs. At the same time, LMs are being used to tackle complex queries that require reasoning. We introduce CoverBench, a challenging benchmark focused on verifying LM outputs in complex reasoning settings. Datasets that can be used for this purpose are often designed for other complex reasoning tasks (e.g., QA) targeting specific use-cases (e.g., financial tables), requiring transformations, negative sampling and selection of hard examples to collect such a benchmark. CoverBench provides a diversified evaluation for complex claim verification in a variety of domains, types of reasoning, relatively long inputs, and a variety of standardizations, such as multiple representations for tables where available, and a consistent schema. We manually vet the data for quality to ensure low levels of label noise. Finally, we report a variety of competitive baseline results to show CoverBench is challenging and has very significant headroom. The data is available at https://huggingface.co/datasets/google/coverbench .
arxiv情報
著者 | Alon Jacovi,Moran Ambar,Eyal Ben-David,Uri Shaham,Amir Feder,Mor Geva,Dror Marcus,Avi Caciularu |
発行日 | 2024-08-06 17:58:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google