要約
人間のようなテキストを生成する大規模な言語モデルの能力における最近の進歩により、ユーザー向けの設定での採用が増加しています。
並行して、これらの改善は、不注意であれ悪意であれ、それらがもたらす社会的危害のリスクに関する激しい議論を引き起こしました.
いくつかの研究では、これらの害を調査し、より安全で公平なモデルの開発による軽減を求めています。
危害のリスクを列挙するだけでなく、この作業は、言語生成モデルからの潜在的な脅威と社会的危害に対処するための実用的な方法の調査を提供します。
言語モデルのリスクのいくつかの先行研究の分類法を利用して、言語ジェネレーターのさまざまな種類のリスク/害を検出および改善するための戦略の構造化された概要を提示します。
さまざまな研究の橋渡しをするこの調査は、さまざまな緩和戦略の動機、それらの限界、および将来の研究のための未解決の問題の説明とともに、LM 研究者と実践者の両方にとって実用的なガイドとして役立つことを目的としています。
要約(オリジナル)
Recent advances in the capacity of large language models to generate human-like text have resulted in their increased adoption in user-facing settings. In parallel, these improvements have prompted a heated discourse around the risks of societal harms they introduce, whether inadvertent or malicious. Several studies have explored these harms and called for their mitigation via development of safer, fairer models. Going beyond enumerating the risks of harms, this work provides a survey of practical methods for addressing potential threats and societal harms from language generation models. We draw on several prior works’ taxonomies of language model risks to present a structured overview of strategies for detecting and ameliorating different kinds of risks/harms of language generators. Bridging diverse strands of research, this survey aims to serve as a practical guide for both LM researchers and practitioners, with explanations of different mitigation strategies’ motivations, their limitations, and open problems for future research.
arxiv情報
著者 | Sachin Kumar,Vidhisha Balachandran,Lucille Njoo,Antonios Anastasopoulos,Yulia Tsvetkov |
発行日 | 2023-02-21 23:56:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google