Learning Machine Morality through Experience and Interaction

要約

次世代の人工知能 (AI) システムの安全性を確保することへの関心が高まっているため、自律エージェントに道徳性を組み込むための新しいアプローチが求められています。
従来、これは、システムに明示的なトップダウンのルールまたは厳しい制約を課すことによって行われてきました。たとえば、事前定義された倫理ルールを通じてシステム出力をフィルタリングすることによって行われてきました。
最近では代わりに、大規模言語モデルのトレーニングや微調整など、人間の行動から暗黙的な好みを学習するための完全にボトムアップの方法がますます人気が高まっています。
この論文では、機械に道徳性を導入するという問題に対する既存のアプローチを体系化し、連続体としてモデル化して、一般的な技術の大部分は完全にハードコーディングされているか、完全に学習されたものであるかの両極端にあると主張します。
道徳原則を明確に述べる必要はありません。
各タイプの方法論の相対的な長所と短所を考慮すると、適応性があり堅牢でありながら、より制御可能で解釈可能なエージェントを作成するには、より多くのハイブリッド ソリューションが必要であると主張します。
特に、経験からの学習(つまり、強化学習)を使用して、固有の報酬、道徳的論理的制約、または言語モデルのテキスト原則として、学習エージェントに道徳原則を明示的に提供する最近の研究の 3 つのケーススタディを紹介します。
たとえば、ソーシャル ジレンマ ゲームで固有の報酬を使用して、エージェントの古典的な道徳的枠組みをどのように表現できるかを示します。
また、このハイブリッド アプローチの可能性についての経験的証拠を提供するために、この分野における既存の研究の概要も示します。
次に、道徳学習エージェントの有効性を評価するための戦略について説明します。
最後に、このフレームワークから明らかになる、AI の安全性と倫理の将来に対する未解決の研究上の疑問と影響を紹介します。

要約(オリジナル)

Increasing interest in ensuring safety of next-generation Artificial Intelligence (AI) systems calls for novel approaches to embedding morality into autonomous agents. Traditionally, this has been done by imposing explicit top-down rules or hard constraints on systems, for example by filtering system outputs through pre-defined ethical rules. Recently, instead, entirely bottom-up methods for learning implicit preferences from human behavior have become increasingly popular, such as those for training and fine-tuning Large Language Models. In this paper, we provide a systematization of existing approaches to the problem of introducing morality in machines – modeled as a continuum, and argue that the majority of popular techniques lie at the extremes – either being fully hard-coded, or entirely learned, where no explicit statement of any moral principle is required. Given the relative strengths and weaknesses of each type of methodology, we argue that more hybrid solutions are needed to create adaptable and robust, yet more controllable and interpretable agents. In particular, we present three case studies of recent works which use learning from experience (i.e., Reinforcement Learning) to explicitly provide moral principles to learning agents – either as intrinsic rewards, moral logical constraints or textual principles for language models. For example, using intrinsic rewards in Social Dilemma games, we demonstrate how it is possible to represent classical moral frameworks for agents. We also present an overview of the existing work in this area in order to provide empirical evidence for the potential of this hybrid approach. We then discuss strategies for evaluating the effectiveness of moral learning agents. Finally, we present open research questions and implications for the future of AI safety and ethics which are emerging from this framework.

arxiv情報

著者 Elizaveta Tennant,Stephen Hailes,Mirco Musolesi
発行日 2024-04-19 15:34:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG, cs.MA パーマリンク