Foundational Challenges in Assuring Alignment and Safety of Large Language Models

要約

この研究では、大規模言語モデル (LLM) の整合性と安全性を確保する上での 18 の基本的な課題を特定しています。
これらの課題は、LLM の科学的理解、開発および導入方法、社会技術的課題という 3 つの異なるカテゴリに分類されます。
特定された課題に基づいて、200 ドル以上の具体的な研究課題を提示します。

要約(オリジナル)

This work identifies 18 foundational challenges in assuring the alignment and safety of large language models (LLMs). These challenges are organized into three different categories: scientific understanding of LLMs, development and deployment methods, and sociotechnical challenges. Based on the identified challenges, we pose $200+$ concrete research questions.

arxiv情報

著者 Usman Anwar,Abulhair Saparov,Javier Rando,Daniel Paleka,Miles Turpin,Peter Hase,Ekdeep Singh Lubana,Erik Jenner,Stephen Casper,Oliver Sourbut,Benjamin L. Edelman,Zhaowei Zhang,Mario Günther,Anton Korinek,Jose Hernandez-Orallo,Lewis Hammond,Eric Bigelow,Alexander Pan,Lauro Langosco,Tomasz Korbak,Heidi Zhang,Ruiqi Zhong,Seán Ó hÉigeartaigh,Gabriel Recchia,Giulio Corsi,Alan Chan,Markus Anderljung,Lilian Edwards,Aleksandar Petrov,Christian Schroeder de Witt,Sumeet Ramesh Motwan,Yoshua Bengio,Danqi Chen,Philip H. S. Torr,Samuel Albanie,Tegan Maharaj,Jakob Foerster,Florian Tramer,He He,Atoosa Kasirzadeh,Yejin Choi,David Krueger
発行日 2024-09-06 00:46:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG パーマリンク