CoinRun: Solving Goal Misgeneralisation

要約

目標の誤った一般化は、AI の調整における重要な課題です。これは、強力な人工知能に、その目標を人間の意図や人間の道徳に合わせさせるという課題です。
このペーパーでは、ACE (概念外挿アルゴリズム) エージェントが、目標の誤った一般化における主要な標準課題の 1 つである CoinRun 課題をどのように解決できるかを示します。
新しい環境では新しい報酬情報は使用されません。
これは、たとえ斬新で危機的な状況であっても、自律エージェントが人間の利益のために行動することをどのように信頼できるかを示しています。

要約(オリジナル)

Goal misgeneralisation is a key challenge in AI alignment — the task of getting powerful Artificial Intelligences to align their goals with human intentions and human morality. In this paper, we show how the ACE (Algorithm for Concept Extrapolation) agent can solve one of the key standard challenges in goal misgeneralisation: the CoinRun challenge. It uses no new reward information in the new environment. This points to how autonomous agents could be trusted to act in human interests, even in novel and critical situations.

arxiv情報

著者 Stuart Armstrong,Alexandre Maranhão,Oliver Daniels-Koch,Patrick Leask,Rebecca Gorman
発行日 2023-11-01 17:23:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク