要約
この研究では、大規模言語モデル (LLM) の整合性と安全性を確保する上での 18 の基本的な課題を特定しています。
これらの課題は、LLM の科学的理解、開発および導入方法、社会技術的課題という 3 つの異なるカテゴリに分類されます。
特定された課題に基づいて、200 ドル以上の具体的な研究課題を提示します。
要約(オリジナル)
This work identifies 18 foundational challenges in assuring the alignment and safety of large language models (LLMs). These challenges are organized into three different categories: scientific understanding of LLMs, development and deployment methods, and sociotechnical challenges. Based on the identified challenges, we pose $200+$ concrete research questions.
arxiv情報
| 著者 | Usman Anwar,Abulhair Saparov,Javier Rando,Daniel Paleka,Miles Turpin,Peter Hase,Ekdeep Singh Lubana,Erik Jenner,Stephen Casper,Oliver Sourbut,Benjamin L. Edelman,Zhaowei Zhang,Mario Günther,Anton Korinek,Jose Hernandez-Orallo,Lewis Hammond,Eric Bigelow,Alexander Pan,Lauro Langosco,Tomasz Korbak,Heidi Zhang,Ruiqi Zhong,Seán Ó hÉigeartaigh,Gabriel Recchia,Giulio Corsi,Alan Chan,Markus Anderljung,Lilian Edwards,Aleksandar Petrov,Christian Schroeder de Witt,Sumeet Ramesh Motwan,Yoshua Bengio,Danqi Chen,Philip H. S. Torr,Samuel Albanie,Tegan Maharaj,Jakob Foerster,Florian Tramer,He He,Atoosa Kasirzadeh,Yejin Choi,David Krueger |
| 発行日 | 2024-09-06 00:46:40+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google