Scheming AIs: Will AIs fake alignment during training in order to get power?

要約

このレポートでは、トレーニングで優れたパフォーマンスを発揮した高度な AI が、後で力を得るためにそうするのかどうか、つまり私が「陰謀」と呼んでいる行動 (「欺瞞的調整」とも呼ばれる) を行うのかどうかを調査します。
私は、陰謀は、陰謀を企てるほど高度な目標指向型 AI を訓練するためにベースラインの機械学習手法を使用した場合の、気がかりなほどもっともらしい結果であると結論付けています (これらの条件を考慮すると、そのような結果が得られる私の主観的な確率はおよそ 25% です)。
特に、トレーニングで良い成績を収めることが権力を獲得するための良い戦略である場合(おそらくそうであると私は思いますが)、非常に多様な目標が計画を立てる動機となり、したがってトレーニングでの優れたパフォーマンスが向上するでしょう。
これにより、トレーニングがそのような目標に自然に到達してそれを強化するか、パフォーマンスを向上させる簡単な方法としてモデルの動機をそのような目標に向けて積極的に推進する可能性が考えられます。
さらに、計画者は動機を明らかにするために設計されたテストで一致しているふりをするため、これが起こったかどうかを判断するのは非常に困難である可能性があります。
しかし、快適さにも理由があると思います。
特に、陰謀は実際には権力を獲得するためのそれほど良い戦略ではないかもしれません。
トレーニングにおけるさまざまな選択圧力は、計画者のような目標に反して作用する可能性があります(たとえば、非計画者と比較して、計画者は余分な手段的推論に従事する必要があり、トレーニングのパフォーマンスを損なう可能性があります)。
そして、そのような圧力を意図的に高めることができるかもしれません。
この報告書では、これらおよびその他のさまざまな考慮事項について詳細に議論し、このテーマをさらに探求するための一連の実証研究の方向性を示唆しています。

要約(オリジナル)

This report examines whether advanced AIs that perform well in training will be doing so in order to gain power later — a behavior I call ‘scheming’ (also sometimes called ‘deceptive alignment’). I conclude that scheming is a disturbingly plausible outcome of using baseline machine learning methods to train goal-directed AIs sophisticated enough to scheme (my subjective probability on such an outcome, given these conditions, is roughly 25%). In particular: if performing well in training is a good strategy for gaining power (as I think it might well be), then a very wide variety of goals would motivate scheming — and hence, good training performance. This makes it plausible that training might either land on such a goal naturally and then reinforce it, or actively push a model’s motivations towards such a goal as an easy way of improving performance. What’s more, because schemers pretend to be aligned on tests designed to reveal their motivations, it may be quite difficult to tell whether this has occurred. However, I also think there are reasons for comfort. In particular: scheming may not actually be such a good strategy for gaining power; various selection pressures in training might work against schemer-like goals (for example, relative to non-schemers, schemers need to engage in extra instrumental reasoning, which might harm their training performance); and we may be able to increase such pressures intentionally. The report discusses these and a wide variety of other considerations in detail, and it suggests an array of empirical research directions for probing the topic further.

arxiv情報

著者 Joe Carlsmith
発行日 2023-11-14 18:42:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG パーマリンク