Evaluating Stability of Unreflective Alignment

要約

AI の調整に対する理論上の障害の多くは、反射安定性の結果です。これは、オプションが与えられた場合に AI が無効にしない調整メカニズムの設計の問題です。
ただし、反射的安定性に起因する問題は現在の LLM には明らかに存在しないため、認知労働の安全な委任を可能にするために問題を解決する必要があるかどうかについては意見の相違が生じています。
この論文では、将来の LLM で反射的な安定性の問題が発生する可能性があるメカニズムとして、反事実的な優先順位変更 (CPC) の不安定化を提案します。
CPC の不安定化の 2 つのリスク要因、1) CPC ベースのステップバック、2) 嗜好の不安定性について説明します。
私たちはこれらのリスク要因ごとに予備評価を作成し、それをフロンティア LLM に適用します。
私たちの調査結果は、現在の LLM では、規模と機能の増加が CPC ベースのステップバックとプリファレンスの不安定性の両方の増加に関連していることを示しており、CPC の不安定化が将来の LLM で反射的な安定性の問題を引き起こす可能性があることを示唆しています。

要約(オリジナル)

Many theoretical obstacles to AI alignment are consequences of reflective stability – the problem of designing alignment mechanisms that the AI would not disable if given the option. However, problems stemming from reflective stability are not obviously present in current LLMs, leading to disagreement over whether they will need to be solved to enable safe delegation of cognitive labor. In this paper, we propose Counterfactual Priority Change (CPC) destabilization as a mechanism by which reflective stability problems may arise in future LLMs. We describe two risk factors for CPC-destabilization: 1) CPC-based stepping back and 2) preference instability. We develop preliminary evaluations for each of these risk factors, and apply them to frontier LLMs. Our findings indicate that in current LLMs, increased scale and capability are associated with increases in both CPC-based stepping back and preference instability, suggesting that CPC-destabilization may cause reflective stability problems in future LLMs.

arxiv情報

著者 James Lucassen,Mark Henry,Philippa Wright,Owen Yeung
発行日 2024-08-27 14:55:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク