要約
近年、大規模言語モデル (LLM) の目覚ましい進歩が見られます。
このような進歩は大きな注目を集める一方で、同時にさまざまな懸念も引き起こしています。
これらのモデルの可能性は疑いなく膨大です。
ただし、不正確で誤解を招く、さらには有害なテキストが生成される可能性があります。
したがって、これらのモデルが人間の価値観と一致する動作を確実に示すように調整技術を採用することが最も重要になります。
この調査は、この分野の既存の能力調査と併せて、LLM 向けに設計された調整方法論の広範な調査を提供することを目的としています。
AI アライメントのレンズを採用して、LLM のアライメントに関する一般的な方法と新しい提案を外側アライメントと内側アライメントに分類します。
また、モデルの解釈可能性や敵対的攻撃に対する潜在的な脆弱性などの顕著な問題も調査します。
LLM の整合性を評価するために、さまざまなベンチマークと評価方法を紹介します。
LLM のアライメント研究の現状について議論した後、私たちは最終的に将来に向けたビジョンを打ち出し、今後の有望な研究の道筋を熟考しました。
この調査に対する私たちの願望は、この分野における研究への関心を単に刺激するだけではありません。
また、AI アライメント研究コミュニティと、有能な LLM と安全な LLM の両方について、LLM の機能探索に夢中になっている研究者との間のギャップを埋めることも構想しています。
要約(オリジナル)
Recent years have witnessed remarkable progress made in large language models (LLMs). Such advancements, while garnering significant attention, have concurrently elicited various concerns. The potential of these models is undeniably vast; however, they may yield texts that are imprecise, misleading, or even detrimental. Consequently, it becomes paramount to employ alignment techniques to ensure these models to exhibit behaviors consistent with human values. This survey endeavors to furnish an extensive exploration of alignment methodologies designed for LLMs, in conjunction with the extant capability research in this domain. Adopting the lens of AI alignment, we categorize the prevailing methods and emergent proposals for the alignment of LLMs into outer and inner alignment. We also probe into salient issues including the models’ interpretability, and potential vulnerabilities to adversarial attacks. To assess LLM alignment, we present a wide variety of benchmarks and evaluation methodologies. After discussing the state of alignment research for LLMs, we finally cast a vision toward the future, contemplating the promising avenues of research that lie ahead. Our aspiration for this survey extends beyond merely spurring research interests in this realm. We also envision bridging the gap between the AI alignment research community and the researchers engrossed in the capability exploration of LLMs for both capable and safe LLMs.
arxiv情報
著者 | Tianhao Shen,Renren Jin,Yufei Huang,Chuang Liu,Weilong Dong,Zishan Guo,Xinwei Wu,Yan Liu,Deyi Xiong |
発行日 | 2023-09-26 15:49:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google