要約
AIアシスタントは、人々の決定や世界観を形作る価値判断を与えることができますが、これらのシステムが実際にどのような価値を依存しているかについては、経験的にはほとんど知られていません。
これに対処するために、クロード3および3.5モデルが数十万の実世界の相互作用で示す値(モデル応答で記載または実証された規範的な考慮事項)を抽出するためのボトムアップのプライバシー圧力方法を開発します。
3,307 AIの値を経験的に発見し、分類し、それらがコンテキストによってどのように変化するかを研究します。
クロードは多くの実用的で認識論的な価値を表現し、通常、「道徳的ニヒリズム」のような価値に抵抗しながら、向社会的人間の価値をサポートしていることがわかります。
コンテキスト全体で一貫して表示される一部の値(「透明性」など)は、人間の対話者の多様性とその多様なコンテキストを反映して、より専門的でコンテキスト依存性があります。
たとえば、Claudeがユーザーに抵抗すると、「Harm Prevention」は、論争の的となっている出来事についての質問に応答する際に「歴史的正確さ」、「関係のアドバイス」を求められたときの「健康的な境界」、技術倫理の議論における「人間の代理店」に抵抗すると現れます。
展開におけるAI値の最初の大規模な経験的マッピングを提供することにより、我々の作業は、AIシステムのより根拠のある評価と設計の基礎を作り出します。
要約(オリジナル)
AI assistants can impart value judgments that shape people’s decisions and worldviews, yet little is known empirically about what values these systems rely on in practice. To address this, we develop a bottom-up, privacy-preserving method to extract the values (normative considerations stated or demonstrated in model responses) that Claude 3 and 3.5 models exhibit in hundreds of thousands of real-world interactions. We empirically discover and taxonomize 3,307 AI values and study how they vary by context. We find that Claude expresses many practical and epistemic values, and typically supports prosocial human values while resisting values like ‘moral nihilism’. While some values appear consistently across contexts (e.g. ‘transparency’), many are more specialized and context-dependent, reflecting the diversity of human interlocutors and their varied contexts. For example, ‘harm prevention’ emerges when Claude resists users, ‘historical accuracy’ when responding to queries about controversial events, ‘healthy boundaries’ when asked for relationship advice, and ‘human agency’ in technology ethics discussions. By providing the first large-scale empirical mapping of AI values in deployment, our work creates a foundation for more grounded evaluation and design of values in AI systems.
arxiv情報
著者 | Saffron Huang,Esin Durmus,Miles McCain,Kunal Handa,Alex Tamkin,Jerry Hong,Michael Stern,Arushi Somani,Xiuruo Zhang,Deep Ganguli |
発行日 | 2025-04-21 17:13:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google