Towards Scalable Automated Alignment of LLMs: A Survey

要約

アライメントは、人間のニーズを満たす大規模言語モデル(LLM)を構築する上で最も重要なステップである。LLMの急速な発展が人間の能力を徐々に凌駕していく中、人間によるアノテーションに基づく従来のアライメント手法では、スケーラビリティの要求に応えられなくなってきている。そのため、自動アライメント信号の新たなソースや技術的アプローチの探求が急務となっている。本論文では、最近出現した自動アライメント手法を体系的にレビューし、LLMの能力が人間の能力を超えた時点で、効果的でスケーラブルな自動アライメントを実現する方法を探る。具体的には、既存の自動アライメント手法を、アライメント信号のソースに基づいて4つの主要なカテゴリーに分類し、各カテゴリーの現状と発展の可能性について議論する。さらに、自動アライメントを可能にする基本的なメカニズムを探求し、アライメントの基本的な役割から、自動アライメント技術を実現可能かつ効果的にする本質的な要因について議論する。

要約(オリジナル)

Alignment is the most critical step in building large language models (LLMs) that meet human needs. With the rapid development of LLMs gradually surpassing human capabilities, traditional alignment methods based on human-annotation are increasingly unable to meet the scalability demands. Therefore, there is an urgent need to explore new sources of automated alignment signals and technical approaches. In this paper, we systematically review the recently emerging methods of automated alignment, attempting to explore how to achieve effective, scalable, automated alignment once the capabilities of LLMs exceed those of humans. Specifically, we categorize existing automated alignment methods into 4 major categories based on the sources of alignment signals and discuss the current status and potential development of each category. Additionally, we explore the underlying mechanisms that enable automated alignment and discuss the essential factors that make automated alignment technologies feasible and effective from the fundamental role of alignment.

arxiv情報

著者 Boxi Cao,Keming Lu,Xinyu Lu,Jiawei Chen,Mengjie Ren,Hao Xiang,Peilin Liu,Yaojie Lu,Ben He,Xianpei Han,Le Sun,Hongyu Lin,Bowen Yu
発行日 2024-09-03 07:07:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, stat.ML パーマリンク