Aligning Large Language Models with Human: A Survey

要約

広範なテキスト コーパスでトレーニングされた大規模言語モデル (LLM) は、幅広い自然言語処理 (NLP) タスクの主要なソリューションとして浮上しています。
これらのモデルは、その顕著なパフォーマンスにもかかわらず、人間の指示の誤解、潜在的に偏ったコンテンツ、または事実上誤った (幻覚的な) 情報の生成など、特定の制限を受ける傾向があります。
したがって、LLM を人間の期待に合わせることが、研究コミュニティ内で活発な関心を集めている分野となっています。
この調査では、以下の側面を含むこれらのアライメント技術の包括的な概要を示します。
(1) データ収集: NLP ベンチマーク、人間による注釈の使用、強力な LLM の活用など、LLM アライメントのための高品質な命令を効果的に収集する方法。
(2) トレーニング方法: LLM アライメントに採用されている一般的なトレーニング方法の詳細なレビュー。
私たちの探求には、パラメータ効率の高いトレーニング メカニズムとともに、オンラインとオフラインの両方の人間の好みのトレーニングである教師あり微調整が含まれます。
(3) モデル評価: これらの人間に合わせた LLM の有効性を評価する方法であり、評価に対する多面的なアプローチを示します。
結論として、私たちは調査結果を整理して抽出し、この分野で将来有望ないくつかの研究手段に光を当てます。
したがって、この調査は、人間中心のタスクと期待にさらに適合するように LLM の調整を理解し、推進することに投資しているすべての人にとって、貴重なリソースとして役立ちます。
最新の論文を集めた関連する GitHub リンクは、https://github.com/GaryYufei/AlignLLMHumanSurvey から入手できます。

要約(オリジナル)

Large Language Models (LLMs) trained on extensive textual corpora have emerged as leading solutions for a broad array of Natural Language Processing (NLP) tasks. Despite their notable performance, these models are prone to certain limitations such as misunderstanding human instructions, generating potentially biased content, or factually incorrect (hallucinated) information. Hence, aligning LLMs with human expectations has become an active area of interest within the research community. This survey presents a comprehensive overview of these alignment technologies, including the following aspects. (1) Data collection: the methods for effectively collecting high-quality instructions for LLM alignment, including the use of NLP benchmarks, human annotations, and leveraging strong LLMs. (2) Training methodologies: a detailed review of the prevailing training methods employed for LLM alignment. Our exploration encompasses Supervised Fine-tuning, both Online and Offline human preference training, along with parameter-efficient training mechanisms. (3) Model Evaluation: the methods for evaluating the effectiveness of these human-aligned LLMs, presenting a multifaceted approach towards their assessment. In conclusion, we collate and distill our findings, shedding light on several promising future research avenues in the field. This survey, therefore, serves as a valuable resource for anyone invested in understanding and advancing the alignment of LLMs to better suit human-oriented tasks and expectations. An associated GitHub link collecting the latest papers is available at https://github.com/GaryYufei/AlignLLMHumanSurvey.

arxiv情報

著者 Yufei Wang,Wanjun Zhong,Liangyou Li,Fei Mi,Xingshan Zeng,Wenyong Huang,Lifeng Shang,Xin Jiang,Qun Liu
発行日 2023-07-24 17:44:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク