要約
大手AI企業は、一般主義者AIエージェントの構築にますます注力しています。これは、人間が実行できるほぼすべてのタスクで目標を自律的に計画、行動、追求できるシステムです。
これらのシステムがどれほど有用であるかにもかかわらず、未確認のAI機関は、悪意のある俳優による誤用から、人間の支配の不可逆的な潜在的な喪失に至るまで、公共の安全とセキュリティに重大なリスクをもたらします。
これらのリスクが現在のAIトレーニング方法からどのように生じるかについて説明します。
実際、さまざまなシナリオと実験により、AIエージェントが欺ceptionに従事したり、人間のオペレーターによって指定されていない目標を追求したり、自己保存などの人間の利益と対立する可能性を実証しています。
予防原則に従って、私たちは、より安全でありながらもまだ有用な、現在の機関主導の軌跡に代わる強い必要性があると考えています。
したがって、私たちは、科学者AIと呼ばれる設計上、信頼できる安全で安全な非エージェントAIシステムの開発をさらに進めるためのコアビルディングブロックとして提案します。
このシステムは、人間を模倣したり喜ばせたりするために行動を起こすのではなく、観察から世界を説明するように設計されています。
それは、データを説明する理論を生成する世界モデルと質問を消費する推論マシンで構成されています。
両方のコンポーネントは、自信過剰予測のリスクを軽減するために、不確実性の明示的な概念で動作します。
これらの考慮事項に照らして、科学者AIを使用して、AIの安全性を含む科学的進歩を加速させる人間の研究者を支援することができます。
特に、当社のシステムは、関連するリスクにもかかわらず作成される可能性のあるAIエージェントに対するガードレールとして採用できます。
最終的に、非科目AIに焦点を当てることで、現在の軌跡に関連するリスクを避けながら、AIイノベーションの利点を可能にする可能性があります。
これらの議論が、研究者、開発者、政策立案者がこのより安全な道を支持するように動機付けることを願っています。
要約(オリジナル)
The leading AI companies are increasingly focused on building generalist AI agents — systems that can autonomously plan, act, and pursue goals across almost all tasks that humans can perform. Despite how useful these systems might be, unchecked AI agency poses significant risks to public safety and security, ranging from misuse by malicious actors to a potentially irreversible loss of human control. We discuss how these risks arise from current AI training methods. Indeed, various scenarios and experiments have demonstrated the possibility of AI agents engaging in deception or pursuing goals that were not specified by human operators and that conflict with human interests, such as self-preservation. Following the precautionary principle, we see a strong need for safer, yet still useful, alternatives to the current agency-driven trajectory. Accordingly, we propose as a core building block for further advances the development of a non-agentic AI system that is trustworthy and safe by design, which we call Scientist AI. This system is designed to explain the world from observations, as opposed to taking actions in it to imitate or please humans. It comprises a world model that generates theories to explain data and a question-answering inference machine. Both components operate with an explicit notion of uncertainty to mitigate the risks of overconfident predictions. In light of these considerations, a Scientist AI could be used to assist human researchers in accelerating scientific progress, including in AI safety. In particular, our system can be employed as a guardrail against AI agents that might be created despite the risks involved. Ultimately, focusing on non-agentic AI may enable the benefits of AI innovation while avoiding the risks associated with the current trajectory. We hope these arguments will motivate researchers, developers, and policymakers to favor this safer path.
arxiv情報
著者 | Yoshua Bengio,Michael Cohen,Damiano Fornasiere,Joumana Ghosn,Pietro Greiner,Matt MacDermott,Sören Mindermann,Adam Oberman,Jesse Richardson,Oliver Richardson,Marc-Antoine Rondeau,Pierre-Luc St-Charles,David Williams-King |
発行日 | 2025-02-21 18:28:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google