要約
AI システムがますます強力になるにつれて、安全な AI の必要性がより緊急になっています。
人間は、AI の安全性にとって魅力的なモデルです。一般的な知能を備えた唯一の既知のエージェントとして、人間は以前の経験から大幅に逸脱した条件下でも堅牢に機能し、世界を安全に探索し、実用論を理解し、本質的な目標を達成するために協力することができます。
インテリジェンスは、協力および安全メカニズムと組み合わせることで、持続的な進歩と幸福を推進することができます。
これらの特性は、脳のアーキテクチャと脳が実装する学習アルゴリズムの関数です。
したがって、神経科学は、現在十分に研究されておらず、十分に活用されていない技術的な AI の安全性に対する重要な鍵を握っている可能性があります。
このロードマップでは、神経科学にヒントを得た AI の安全性に向けたいくつかの道を強調し、批判的に評価します。
脳のデータと身体を模倣して堅牢な感覚システムと運動システムを構築する。
脳データに基づいて AI システムを微調整する。
神経科学的手法を使用して解釈可能性を向上させる。
そして認知にインスピレーションを得たアーキテクチャをスケールアップします。
私たちは、神経科学が AI の安全性にどのようなプラスの影響を与えることができるかについて、いくつかの具体的な推奨事項を提示します。
要約(オリジナル)
As AI systems become increasingly powerful, the need for safe AI has become more pressing. Humans are an attractive model for AI safety: as the only known agents capable of general intelligence, they perform robustly even under conditions that deviate significantly from prior experiences, explore the world safely, understand pragmatics, and can cooperate to meet their intrinsic goals. Intelligence, when coupled with cooperation and safety mechanisms, can drive sustained progress and well-being. These properties are a function of the architecture of the brain and the learning algorithms it implements. Neuroscience may thus hold important keys to technical AI safety that are currently underexplored and underutilized. In this roadmap, we highlight and critically evaluate several paths toward AI safety inspired by neuroscience: emulating the brain’s representations, information processing, and architecture; building robust sensory and motor systems from imitating brain data and bodies; fine-tuning AI systems on brain data; advancing interpretability using neuroscience methods; and scaling up cognitively-inspired architectures. We make several concrete recommendations for how neuroscience can positively impact AI safety.
arxiv情報
著者 | Patrick Mineault,Niccolò Zanichelli,Joanne Zichen Peng,Anton Arkhipov,Eli Bingham,Julian Jara-Ettinger,Emily Mackevicius,Adam Marblestone,Marcelo Mattar,Andrew Payne,Sophia Sanborn,Karen Schroeder,Zenna Tavares,Andreas Tolias |
発行日 | 2024-11-27 17:18:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google