要約
本稿では、認知神経科学の知見を活用し、AIシステムの透明性を向上させるアプローチである表現工学(Representation Engineering:RepE)という新たな分野を特定し、その特徴を明らかにする。RepEは、ニューロンや回路ではなく、集団レベルの表現を分析の中心に置き、ディープニューラルネットワーク(DNN)における高レベルの認知現象をモニタリングし、操作するための新しい手法を提供する。我々は、RepE技術のベースラインと初期分析を提供し、大規模言語モデルの理解と制御を改善するためのシンプルかつ効果的なソリューションを提供することを示す。これらの手法が、誠実さ、無害さ、権力追求など、安全性に関連する幅広い問題に対してどのような牽引力を発揮できるかを紹介し、トップダウンの透明性研究が有望であることを示す。我々は、この研究がRepEのさらなる探求のきっかけとなり、AIシステムの透明性と安全性の進歩が促進されることを願っている。
要約(オリジナル)
In this paper, we identify and characterize the emerging area of representation engineering (RepE), an approach to enhancing the transparency of AI systems that draws on insights from cognitive neuroscience. RepE places population-level representations, rather than neurons or circuits, at the center of analysis, equipping us with novel methods for monitoring and manipulating high-level cognitive phenomena in deep neural networks (DNNs). We provide baselines and an initial analysis of RepE techniques, showing that they offer simple yet effective solutions for improving our understanding and control of large language models. We showcase how these methods can provide traction on a wide range of safety-relevant problems, including honesty, harmlessness, power-seeking, and more, demonstrating the promise of top-down transparency research. We hope that this work catalyzes further exploration of RepE and fosters advancements in the transparency and safety of AI systems.
arxiv情報
著者 | Andy Zou,Long Phan,Sarah Chen,James Campbell,Phillip Guo,Richard Ren,Alexander Pan,Xuwang Yin,Mantas Mazeika,Ann-Kathrin Dombrowski,Shashwat Goel,Nathaniel Li,Michael J. Byun,Zifan Wang,Alex Mallen,Steven Basart,Sanmi Koyejo,Dawn Song,Matt Fredrikson,J. Zico Kolter,Dan Hendrycks |
発行日 | 2023-10-03 08:39:09+00:00 |
arxivサイト | arxiv_id(pdf) |