Learning Human-like Representations to Enable Learning Human Values

要約

危害を加えたり、許容される行動に関する社会基準に違反したりすることを避けるために、人間の価値観や目的に沿った AI システムを構築するにはどうすればよいでしょうか?
AI システムに人間に似た世界の表現を学習させることには、一般化、ドメイン シフトに対する堅牢性、少数ショット学習パフォーマンスの向上など、多くの既知の利点があります。
私たちは、機械学習 (ML) モデルと人間の間のこの種の表現的調整も、ML システムが人間の価値観と社会規範に準拠する価値調整の必要条件であると提案します。
私たちは、価値の調整の 1 つの側面として倫理に焦点を当て、マルチアーム バンディット設定で複数の ML エージェント (サポート ベクター回帰とカーネル回帰) をトレーニングします。この設定では、選択した行動の道徳性を反映する分布から報酬がサンプリングされます。
次に、各エージェントの人間との表現上の一致度と、最も倫理的な行動を取ることを学習する際のパフォーマンスとの関係を研究します。

要約(オリジナル)

How can we build AI systems that are aligned with human values and objectives in order to avoid causing harm or violating societal standards for acceptable behavior? Making AI systems learn human-like representations of the world has many known benefits, including improving generalization, robustness to domain shifts, and few-shot learning performance, among others. We propose that this kind of representational alignment between machine learning (ML) models and humans is also a necessary condition for value alignment, where ML systems conform to human values and societal norms. We focus on ethics as one aspect of value alignment and train multiple ML agents (support vector regression and kernel regression) in a multi-armed bandit setting, where rewards are sampled from a distribution that reflects the morality of the chosen action. We then study the relationship between each agent’s degree of representational alignment with humans and their performance when learning to take the most ethical actions.

arxiv情報

著者 Andrea Wynn,Ilia Sucholutsky,Thomas L. Griffiths
発行日 2023-12-21 18:31:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク