要約
現代の機械学習の最も深刻な課題の1つは、希少で過小評価されている機能のロングテールでうまく機能することです。
大規模な汎用モデルは多くのタスクでトレーニングされていますが、高周波ユースケースで最適です。
トレーニング後、トレーニングコーパスで過小評価されている特定のユースケースでうまく機能するようにモデルを適応させることは困難です。
モデルは小さな変化に非常に敏感である可能性があるため、特定のテストケースの出力品質を最大化するために迅速なエンジニアリングまたは少数のショットの例に依存することはイライラする可能性があります。
この作業では、「推論時に過小評価されたユースケースの制御性とパフォーマンスを向上させるために、トレーニングプロトコルを最適化できますか?」
トレーニングと推論手法の違いを再検討し、長期尾のパフォーマンスを改善しながら、モデルが対応するようにトレーニングされている一連のコントロールレバーをユーザーに提供します。
データ特性とタスクの起源の詳細な分類法を作成して、生成属性を明示的に制御し、推論時間に暗黙的に条件の世代を作成します。
これらのマーカーを自動的に推測するためにベースモデルを微調整するため、推論時にオプションになります。
この原則的で柔軟なアプローチは、特にトレーニング分布の長い尾の例で、パフォーマンスの改善が顕著になります。
マーカーを使用して、オープンエンドの世代の品質で5.7%の勝利率の平均リフトを観察していますが、過小評価されたドメインで9.1%以上の利益が見られます。
また、CoderePairなどの過小評価されたタスクで最大14.1%の相対揚力や、評価後の長さ指示の35.3%の絶対改善が観察されます。
要約(オリジナル)
One of the most profound challenges of modern machine learning is performing well on the long-tail of rare and underrepresented features. Large general-purpose models are trained for many tasks, but work best on high-frequency use cases. After training, it is hard to adapt a model to perform well on specific use cases underrepresented in the training corpus. Relying on prompt engineering or few-shot examples to maximize the output quality on a particular test case can be frustrating, as models can be highly sensitive to small changes, react in unpredicted ways or rely on a fixed system prompt for maintaining performance. In this work, we ask: ‘Can we optimize our training protocols to both improve controllability and performance on underrepresented use cases at inference time?’ We revisit the divide between training and inference techniques to improve long-tail performance while providing users with a set of control levers the model is trained to be responsive to. We create a detailed taxonomy of data characteristics and task provenance to explicitly control generation attributes and implicitly condition generations at inference time. We fine-tune a base model to infer these markers automatically, which makes them optional at inference time. This principled and flexible approach yields pronounced improvements in performance, especially on examples from the long tail of the training distribution. While we observe an average lift of 5.7% win rates in open-ended generation quality with our markers, we see over 9.1% gains in underrepresented domains. We also observe relative lifts of up to 14.1% on underrepresented tasks like CodeRepair and absolute improvements of 35.3% on length instruction following evaluations.
arxiv情報
| 著者 | Daniel D’souza,Julia Kreutzer,Adrien Morisot,Ahmet Üstün,Sara Hooker | 
| 発行日 | 2025-06-17 16:40:42+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
