要約
タイトル:倫理的AIのための人間の価値観の計算フレームワーク
要約:
– 人間の価値観について心理学、哲学、社会科学などの分野で多種多様な研究がされているが、共通して価値観が行動に影響を与えることが分かっている。
– 近年、AIによる倫理的行動を実現するためには人間の価値観を取り入れる必要があるという認識が生まれている。例えば、Stuart Russell氏はAIが人間の価値観に合致した知能を持つよう軸足を変えるべきだと提唱している。
– しかしながら、AIが人間の価値観を学習し、個人的な価値観から集団的な価値観を構成する方法、そしてその価値観に基づく計算機メカニズムの設計など、多くの問題がある。「価値観の一致問題」とも呼ばれる。
– これらの問題に取り組むためには、価値観を形式的かつ計算可能な枠組みで定義する必要があるが、現状ではそれが行われていない。
– そこで、社会科学に根ざした形式的な概念フレームワークを提供し、人間の価値観を利用して倫理的なAIを設計するための継続的で統合的で学際的な研究を実施する基盤を提供することを目的とする。
要約(オリジナル)
In the diverse array of work investigating the nature of human values from psychology, philosophy and social sciences, there is a clear consensus that values guide behaviour. More recently, a recognition that values provide a means to engineer ethical AI has emerged. Indeed, Stuart Russell proposed shifting AI’s focus away from simply “intelligence” towards intelligence “provably aligned with human values”. This challenge — the value alignment problem — with others including an AI’s learning of human values, aggregating individual values to groups, and designing computational mechanisms to reason over values, has energised a sustained research effort. Despite this, no formal, computational definition of values has yet been proposed. We address this through a formal conceptual framework rooted in the social sciences, that provides a foundation for the systematic, integrated and interdisciplinary investigation into how human values can support designing ethical AI.
arxiv情報
| 著者 | Nardine Osman,Mark d’Inverno |
| 発行日 | 2023-05-04 11:35:41+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI