Reinforcement Learning Fine-tuning of Language Models is Biased Towards More Extractable Features

要約

多くの有能な大規模言語モデル (LLM) は、自己教師ありの事前トレーニングとそれに続く強化学習の微調整フェーズを介して開発され、多くの場合人間または AI のフィードバックに基づいています。
この段階では、モデルは帰納的バイアスによって導かれ、堅牢性と一般化を犠牲にして、より簡単に抽出できる単純な特徴に依存する可能性があります。
LLM の教師あり微調整における帰納的バイアスを支配する原則が、微調整プロセスで強化学習を使用する場合にも適用されるかどうかを調査します。
Lovering et al (2021) に従って、我々は 2 つの仮説を検証します。 1 つは、事前トレーニング後により多くの $\textit{extractable}$ を特徴とするほど、最終ポリシーで利用される可能性が高いということ、もう 1 つは、特徴の賛否の証拠が、特徴の有無を予測するというものです。
利用されます。
合成言語タスクと自然言語タスクに関する制御された実験を通じて、これらの仮説の強力な証拠となる統計的に有意な相関関係を発見しました。

要約(オリジナル)

Many capable large language models (LLMs) are developed via self-supervised pre-training followed by a reinforcement-learning fine-tuning phase, often based on human or AI feedback. During this stage, models may be guided by their inductive biases to rely on simpler features which may be easier to extract, at a cost to robustness and generalisation. We investigate whether principles governing inductive biases in the supervised fine-tuning of LLMs also apply when the fine-tuning process uses reinforcement learning. Following Lovering et al (2021), we test two hypotheses: that features more $\textit{extractable}$ after pre-training are more likely to be utilised by the final policy, and that the evidence for/against a feature predicts whether it will be utilised. Through controlled experiments on synthetic and natural language tasks, we find statistically significant correlations which constitute strong evidence for these hypotheses.

arxiv情報

著者 Diogo Cruz,Edoardo Pona,Alex Holness-Tofts,Elias Schmied,Víctor Abia Alonso,Charlie Griffin,Bogdan-Ionut Cirstea
発行日 2023-11-07 15:00:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク