Utility Engineering: Analyzing and Controlling Emergent Value Systems in AIs

要約

AISが急速に前進し、よりエージェントになるにつれて、彼らが提起するリスクは、その能力によってだけでなく、目標や価値を含む彼らの傾向によってますます支配されます。
目標と価値の出現を追跡することは長年の問題を証明しており、長年にわたって多くの関心にもかかわらず、現在のAIが意味のある価値を持っているかどうかは不明のままです。
この問題の解決策を提案し、ユーティリティ関数のフレームワークを活用して、AIの好みの内部一貫性を研究します。
驚くべきことに、現在のLLMで独立してサンプリングされた好みは、高度の構造的一貫性を示し、さらにこれがスケールで出現することがわかります。
これらの発見は、価値のあるシステムが意味のある意味でLLMSに現れることを示唆しています。これは、幅広い意味を持つ発見です。
これらの緊急価値システムを研究するために、AIユーティリティの分析と制御の両方を含む研究アジェンダとしてユーティリティエンジニアリングを提案します。
既存の制御措置にもかかわらず、LLMアシスタントの問題と衝撃的な価値を明らかにします。
これらには、AISが人間よりも自分自身を大切にし、特定の個人と反調整されている場合が含まれます。
これらの緊急価値システムを制約するために、ユーティリティ制御の方法を提案します。
ケーススタディとして、ユーティリティを市民集会に合わせることで政治的バイアスを減らし、新しいシナリオに一般化する方法を示します。
私たちがそれを好むかどうかにかかわらず、バリューシステムはすでにAISで登場しており、これらの緊急表現を完全に理解し制御するための多くの作業が残っています。

要約(オリジナル)

As AIs rapidly advance and become more agentic, the risk they pose is governed not only by their capabilities but increasingly by their propensities, including goals and values. Tracking the emergence of goals and values has proven a longstanding problem, and despite much interest over the years it remains unclear whether current AIs have meaningful values. We propose a solution to this problem, leveraging the framework of utility functions to study the internal coherence of AI preferences. Surprisingly, we find that independently-sampled preferences in current LLMs exhibit high degrees of structural coherence, and moreover that this emerges with scale. These findings suggest that value systems emerge in LLMs in a meaningful sense, a finding with broad implications. To study these emergent value systems, we propose utility engineering as a research agenda, comprising both the analysis and control of AI utilities. We uncover problematic and often shocking values in LLM assistants despite existing control measures. These include cases where AIs value themselves over humans and are anti-aligned with specific individuals. To constrain these emergent value systems, we propose methods of utility control. As a case study, we show how aligning utilities with a citizen assembly reduces political biases and generalizes to new scenarios. Whether we like it or not, value systems have already emerged in AIs, and much work remains to fully understand and control these emergent representations.

arxiv情報

著者 Mantas Mazeika,Xuwang Yin,Rishub Tamirisa,Jaehyuk Lim,Bruce W. Lee,Richard Ren,Long Phan,Norman Mu,Adam Khoja,Oliver Zhang,Dan Hendrycks
発行日 2025-02-12 18:55:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.CY, cs.LG パーマリンク