要約
次世代の人工知能(AI)システムの安全性を確保することへの関心が高まっており、自律型エージェントにモラルを組み込むための新しいアプローチが求められている。従来は、例えばあらかじめ定義された倫理ルールによってシステム出力をフィルタリングするなど、明示的なトップダウンのルールやハードな制約をシステムに課すことによって行われてきた。最近では、人間の行動から暗黙的な嗜好を学習するボトムアップ的な手法、例えばラージ・ランゲージ・モデルのトレーニングやファインチューニングのための手法の人気が高まっている。本稿では、機械に道徳性を導入する問題に対する既存のアプローチを体系化し、連続体としてモデル化する。そして、一般的な手法の大半は、完全にハードコードされたものか、完全に学習されたものかの両極端に位置し、道徳的原則の明示的な記述は必要ないと主張する。各タイプの方法論の相対的な長所と短所を考慮すると、適応可能で頑健でありながら、より制御可能で解釈可能なエージェントを作成するためには、よりハイブリッドなソリューションが必要であると主張する。 特に、経験からの学習(すなわち強化学習)を用いて、学習エージェントに道徳原理を明示的に提供する3つの最近の研究事例を紹介する。例えば、社会的ジレンマゲームにおける内在的報酬を用いて、エージェントに古典的な道徳的枠組みを表現することが可能であることを示す。また、このハイブリッドアプローチの可能性を実証的に示すために、この分野における既存の研究の概要を示す。次に、モラル学習エージェントの有効性を評価するための戦略について議論する。最後に、このフレームワークから見えてきた、AIの安全性と倫理の将来に対する未解決の研究課題と示唆を示す。
要約(オリジナル)
Increasing interest in ensuring safety of next-generation Artificial Intelligence (AI) systems calls for novel approaches to embedding morality into autonomous agents. Traditionally, this has been done by imposing explicit top-down rules or hard constraints on systems, for example by filtering system outputs through pre-defined ethical rules. Recently, instead, entirely bottom-up methods for learning implicit preferences from human behavior have become increasingly popular, such as those for training and fine-tuning Large Language Models. In this paper, we provide a systematization of existing approaches to the problem of introducing morality in machines – modeled as a continuum, and argue that the majority of popular techniques lie at the extremes – either being fully hard-coded, or entirely learned, where no explicit statement of any moral principle is required. Given the relative strengths and weaknesses of each type of methodology, we argue that more hybrid solutions are needed to create adaptable and robust, yet more controllable and interpretable agents. In particular, we present three case studies of recent works which use learning from experience (i.e., Reinforcement Learning) to explicitly provide moral principles to learning agents – either as intrinsic rewards, moral logical constraints or textual principles for language models. For example, using intrinsic rewards in Social Dilemma games, we demonstrate how it is possible to represent classical moral frameworks for agents. We also present an overview of the existing work in this area in order to provide empirical evidence for the potential of this hybrid approach. We then discuss strategies for evaluating the effectiveness of moral learning agents. Finally, we present open research questions and implications for the future of AI safety and ethics which are emerging from this framework.
arxiv情報
著者 | Elizaveta Tennant,Stephen Hailes,Mirco Musolesi |
発行日 | 2023-12-04 11:46:34+00:00 |
arxivサイト | arxiv_id(pdf) |