Self-Consistency Preference Optimization

要約

人間による注釈なしでモデルが自らを改善することを学習する自己調整は、急速に成長している研究分野です。
しかし、既存の手法では、正しい報酬を割り当てることが難しいため、複雑な推論タスクを改善できないことがよくあります。
正確性を向上させることが知られている直交アプローチは自己無矛盾性です。これは、最も一貫性のある答えを見つけるために、複数のサンプリングに基づいて推論時に適用される方法です。
この作業では、モデルのトレーニングを支援するために自己一貫性の概念を拡張します。
そこで、教師なしの新しい問題に対して一貫性のない回答が一貫性のない回答よりも優先されるように反復的にトレーニングする自己一貫性優先最適化 (ScPO) を導入します。
私たちは、ScPO が GSM8K や MATH などの推論タスクに関する従来の報酬モデル トレーニングに比べて大幅な改善につながり、ゴールドアンサーや好みを使用した教師ありトレーニングとのギャップを埋め、ScPO と標準の教師あり学習を組み合わせることで結果がさらに向上することを示しました。
ZebraLogic では、ScPO が Llama-3 8B を Llama-3 70B、Gemma-2 27B、Claude-3 Haiku よりも優れたものになるよう微調整しています。

要約(オリジナル)

Self-alignment, whereby models learn to improve themselves without human annotation, is a rapidly growing research area. However, existing techniques often fail to improve complex reasoning tasks due to the difficulty of assigning correct rewards. An orthogonal approach that is known to improve correctness is self-consistency, a method applied at inference time based on multiple sampling in order to find the most consistent answer. In this work, we extend the self-consistency concept to help train models. We thus introduce self-consistency preference optimization (ScPO), which iteratively trains consistent answers to be preferred over inconsistent ones on unsupervised new problems. We show ScPO leads to large improvements over conventional reward model training on reasoning tasks such as GSM8K and MATH, closing the gap with supervised training with gold answers or preferences, and that combining ScPO with standard supervised learning improves results even further. On ZebraLogic, ScPO finetunes Llama-3 8B to be superior to Llama-3 70B, Gemma-2 27B, and Claude-3 Haiku.

arxiv情報

著者 Archiki Prasad,Weizhe Yuan,Richard Yuanzhe Pang,Jing Xu,Maryam Fazel-Zarandi,Mohit Bansal,Sainbayar Sukhbaatar,Jason Weston,Jane Yu
発行日 2024-11-06 18:36:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク