CritiQ: Mining Data Quality Criteria from Human Preferences

要約

言語モデルは、最適なパフォーマンスのために高品質のデータに大きく依存します。
既存のアプローチは、手動で設計されたヒューリスティック、既存のモデルの困惑、トレーニング分類器、または慎重な迅速なエンジニアリングに依存しています。
Critiqを紹介します。これは、$ \ SIM $ 30の人間解釈ペアのみでデータ品質のための人間の好みから基準を自動的に採掘し、効率的なデータ選択を実行する新しいデータ選択方法を紹介します。
主なコンポーネントであるCritiq Flowは、マネージャーエージェントを採用して品質基準を進化させ、ワーカーエージェントをペアワイズ判断します。
批評家の流れを高めるために、以前の研究から品質基準を抽出する知識ベースを構築します。
困惑および分類器ベースの方法と比較して、言葉による基準はより解釈可能であり、再利用可能な価値を持っています。
基準を導き出した後、critiqの得点者を訓練して、品質スコアを与え、効率的なデータ選択を実行します。
コード、数学、ロジックドメインにおける方法の有効性を実証し、人間が発表したテストセットで高い精度を達成します。
選択したデータの品質を検証するために、Llama 3.1モデルを継続的にトレーニングし、均一なサンプリングと比較してダウンストリームタスクのパフォーマンスの向上を観察します。
アブレーション研究は、知識ベースの利点と反射プロセスを検証します。
基準がどのように進化し、多数決の有効性を分析します。

要約(オリジナル)

Language model heavily depends on high-quality data for optimal performance. Existing approaches rely on manually designed heuristics, the perplexity of existing models, training classifiers, or careful prompt engineering, which require significant expert experience and human annotation effort while introduce biases. We introduce CritiQ, a novel data selection method that automatically mines criteria from human preferences for data quality with only $\sim$30 human-annotated pairs and performs efficient data selection. The main component, CritiQ Flow, employs a manager agent to evolve quality criteria and worker agents to make pairwise judgments. We build a knowledge base that extracts quality criteria from previous work to boost CritiQ Flow. Compared to perplexity- and classifier- based methods, verbal criteria are more interpretable and possess reusable value. After deriving the criteria, we train the CritiQ Scorer to give quality scores and perform efficient data selection. We demonstrate the effectiveness of our method in the code, math, and logic domains, achieving high accuracy on human-annotated test sets. To validate the quality of the selected data, we continually train Llama 3.1 models and observe improved performance on downstream tasks compared to uniform sampling. Ablation studies validate the benefits of the knowledge base and the reflection process. We analyze how criteria evolve and the effectiveness of majority voting.

arxiv情報

著者 Honglin Guo,Kai Lv,Qipeng Guo,Tianyi Liang,Zhiheng Xi,Demin Song,Qiuyinzhe Zhang,Yu Sun,Kai Chen,Xipeng Qiu,Tao Gui
発行日 2025-02-26 16:33:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク