ZEBRA: Leveraging Model-Behavioral Knowledge for Zero-Annotation Preference Dataset Construction

要約

LLMアライメントにおける最近の取り組みは、ヒトまたは人工知能(AI)アノテーターを介して大規模な選好データセットの構築に焦点を当てています。
ただし、そのようなアプローチは、インスタンスごとの監督に依存しており、実質的な注釈コストと制限された解釈可能性が発生します。
このホワイトペーパーでは、ベンチマークパフォーマンスから導き出されたモデルの動作知識を活用することにより、好みデータを構築するモデルの動作性ゼロアノレーションフレームワークであるZebraを提案します。
Zebraは、その原点モデルの品質と類似性を評価し、インスタンスレベルの注釈を完全にバイパスすることにより、応答ペアを双方向させます。
これにより、スケーラブル、制御可能、および費用対効果の高いアライメントデータ生成が可能になります。
経験的結果は、Zebraがマニュアルまたはモデルベースのラベル付けを必要としないにもかかわらず、インスタンス監視方法に匹敵するアライメントパフォーマンスを達成することを示しています。

要約(オリジナル)

Recent efforts in LLM alignment have focused on constructing large-scale preference datasets via human or Artificial Intelligence (AI) annotators. However, such approaches rely on instance-wise supervision, incurring substantial annotation cost and limited interpretability. In this paper, we propose ZEBRA – a model behavior-wise zero-annotation framework that constructs preference data by leveraging model behavior knowledge derived from benchmark performances. ZEBRA binarizes response pairs by evaluating the quality and similarity of their origin models, entirely bypassing instance-level annotation. This allows scalable, controllable, and cost-effective alignment data generation. Empirical results show that ZEBRA achieves alignment performance comparable to instance-supervised methods, despite requiring no manual or model-based labeling.

arxiv情報

著者 Jeesu Jung,Chanjun Park,Sangkeun Jung
発行日 2025-06-02 07:16:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク