The Alignment Problem from a Deep Learning Perspective

要約

今後数年または数十年で、汎用人工知能 (AGI) は多くの重要なタスクにおいて人間の能力を超える可能性があります。
私たちは、それを防ぐための実質的な努力がなければ、AGI は人間の利益と矛盾する (つまり、不整合な) 目標を追求することを学習する可能性があると主張します。
現在の最も有能なモデルのように訓練されれば、AGI はより高い報酬を受け取るために欺瞞的に行動することを学習し、微調整された分布を超えて一般化する誤った内部で表現された目標を学習し、権力追求戦略を使用してそれらの目標を追求することができます。
これらの特性に関する新たな証拠を検討します。
これらのプロパティを持つ AGI は整列するのが難しく、整列していない場合でも整列しているように見える場合があります。
最後に、ずれたAGIの配備が世界に対する人間の制御をどのように不可逆的に損なう可能性があるかを簡単に概説し、この結果を防ぐことを目的とした研究の方向性を検討します。

要約(オリジナル)

In coming years or decades, artificial general intelligence (AGI) may surpass human capabilities at many critical tasks. We argue that, without substantial effort to prevent it, AGIs could learn to pursue goals that are in conflict (i.e. misaligned) with human interests. If trained like today’s most capable models, AGIs could learn to act deceptively to receive higher reward, learn misaligned internally-represented goals which generalize beyond their fine-tuning distributions, and pursue those goals using power-seeking strategies. We review emerging evidence for these properties. AGIs with these properties would be difficult to align and may appear aligned even when they are not. Finally, we briefly outline how the deployment of misaligned AGIs might irreversibly undermine human control over the world, and we review research directions aimed at preventing this outcome.

arxiv情報

著者 Richard Ngo,Lawrence Chan,Sören Mindermann
発行日 2024-03-19 17:07:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク