CLIPPER: Compression enables long-context synthetic data generation

要約

LLM開発者は合成データにますます依存していますが、複雑な長いコンテストの推論タスクのための高品質のデータを生成することは依然として困難です。
物語の主張検証に合わせた合成データを生成するための圧縮ベースのアプローチであるClipperを紹介します。これは、特定の主張を検証するために本をめぐる推論を必要とするタスクです。
Artifactに満ちたクレームをもたらす本の生のテキストから直接クレームを生成する代わりに、Clipperは本を章の概要と本の要約に最初に圧縮し、これらの中間表現を使用して複雑なクレームと対応するチェーンを生成します。
ナイーブなアプローチと比較して、クリッパーは、より有効で、接地され、複雑なクレームを生成します。
Clipperを使用して、ソーステキストと考え方の推論と組み合わせた19kの合成書籍クレームのデータセットを作成し、それを使用して3つのオープンウェイトモデルを微調整します。
私たちの最高のモデルは、物語のクレーム検証(テストセットの28%から76%の精度)で画期的な結果を達成し、Nochaリーダーボードのサブ10Bモデルの新しい最先端の最先端を設定します。
さらなる分析では、モデルがより詳細で根拠のあるチェーンの推論を生成しながら、他の物語の理解タスク(たとえば、ナラティブQA)のパフォーマンスを改善することが示されています。

要約(オリジナル)

LLM developers are increasingly reliant on synthetic data, but generating high-quality data for complex long-context reasoning tasks remains challenging. We introduce CLIPPER, a compression-based approach for generating synthetic data tailored to narrative claim verification – a task that requires reasoning over a book to verify a given claim. Instead of generating claims directly from the raw text of the book, which results in artifact-riddled claims, CLIPPER first compresses the book into chapter outlines and book summaries and then uses these intermediate representations to generate complex claims and corresponding chain-of-thoughts. Compared to naive approaches, CLIPPER produces claims that are more valid, grounded, and complex. Using CLIPPER, we construct a dataset of 19K synthetic book claims paired with their source texts and chain-of-thought reasoning, and use it to fine-tune three open-weight models. Our best model achieves breakthrough results on narrative claim verification (from 28% to 76% accuracy on our test set) and sets a new state-of-the-art for sub-10B models on the NoCha leaderboard. Further analysis shows that our models generate more detailed and grounded chain-of-thought reasoning while also improving performance on other narrative understanding tasks (e.g., NarrativeQA).

arxiv情報

著者 Chau Minh Pham,Yapei Chang,Mohit Iyyer
発行日 2025-02-20 18:58:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク