From Distributional to Overton Pluralism: Investigating Large Language Model Alignment

要約

アライメント プロセスにより、大規模言語モデル (LLM) の出力分布のいくつかのプロパティが変更されます。
我々は、調整後の LLM 応答の分布シフトの 2 つの側面を分析します。
まず、以前に報告された調整後の応答多様性の減少を再調査します。
私たちの分析では、回答の多様性の明らかな低下は主に品質管理と情報の集約によって説明されることが示唆されています。
アライメントにより、無関係で役に立たないコンテンツが抑制され、基本 LLM からの複数の応答にまたがる情報をカバーする長い応答に出力分布がシフトされ、基本的に 1 つの応答で多様な情報が表示されます。
アライメントによって有用な情報が抑制されるという証拠がほとんど見つからない場合、逆の質問をするのは自然なことです。アライメントされたモデルは、ベース モデルから回復できない情報を表面化しますか?
私たちの 2 回目の調査では、これは当てはまらず、調整されたモデルの動作は微調整せずに基本モデルから回復できることが示されています。
コンテキスト内の例と、応答コンテンツに関する低解像度のセマンティック ヒントを組み合わせると、アライメント調整された LLM 応答と同様に、アライメント調整された LLM 応答と同様にベース LLM からの応答を引き出すことができます。
総合すると、これらの結果は、現在のアライメント技術がアシスタントのような基本 LLM 動作の有用なサブセットを捉えているが拡張していないことを示し、表面アライメント仮説のさらなる証拠を提供します。
また、コンテキスト内アライメントは、微調整せずにアライメントされた LLM を模倣するための戦略として驚くほど効果的であることも示しています。
私たちのコードとデータは https://github.com/thomlake/investigating-alignment で入手できます。

要約(オリジナル)

The alignment process changes several properties of a large language model’s (LLM’s) output distribution. We analyze two aspects of post-alignment distributional shift of LLM responses. First, we re-examine previously reported reductions in response diversity post-alignment. Our analysis suggests that an apparent drop in the diversity of responses is largely explained by quality control and information aggregation. Alignment suppresses irrelevant and unhelpful content while shifting the output distribution toward longer responses that cover information spanning several responses from the base LLM, essentially presenting diverse information in a single response. Finding little evidence that alignment suppresses useful information, it is natural to ask the opposite question: do aligned models surface information that cannot be recovered from base models? Our second investigation shows this is not the case and the behavior of aligned models is recoverable from base models without fine-tuning. A combination of in-context examples and lower-resolution semantic hints about response content can elicit responses from base LLMs that are as similar to alignment-tuned LLM responses as alignment-tuned LLM responses are to each other. Taken together, these results indicate that current alignment techniques capture but do not extend the useful subset of assistant-like base LLM behavior, providing further evidence for the Superficial Alignment Hypothesis. They also show that in-context alignment can go surprisingly far as a strategy for imitating aligned LLMs without fine-tuning. Our code and data is available at https://github.com/thomlake/investigating-alignment.

arxiv情報

著者 Thom Lake,Eunsol Choi,Greg Durrett
発行日 2024-06-25 16:32:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク