From Instructions to Intrinsic Human Values — A Survey of Alignment Goals for Big Models

要約

Large Language Model (LLM) に代表されるビッグ モデルは、通常、大規模なデータで事前トレーニングされ、膨大なパラメーターで構成されるモデルであり、さまざまなタスクにわたってパフォーマンスが大幅に向上するだけでなく、小規模なモデルには存在しない新しい機能も提供します。
しかし、大型モデルが人間の日常生活とますます絡み合うことは、潜在的なリスクをもたらし、深刻な社会的危害を引き起こす可能性があります。
したがって、LLM を人間に合わせて、LLM がユーザーの指示に従い、人間の好みをよりよく満たせるようにするために、多くの努力が払われてきました。
それにもかかわらず、「何を調整するか」については十分に議論されておらず、不適切な調整目標は逆効果になる可能性さえあります。
このペーパーでは、既存の作業におけるさまざまな調整目標の包括的な調査を実施し、最も重要な目標を特定するためにそれらの進化の経路を追跡します。
特に、アライメント目標の定義とアライメント評価の 2 つの観点から関連研究を調査します。
私たちの分析は、3 つの異なるレベルの調整目標を網羅しており、基本的な能力から価値指向への目標の変換を明らかにし、強化された LLM の調整目標としての人間の本質的な価値観の可能性を示しています。
このような結果に基づいて、このような本質的な価値の整合性を達成するための課題についてさらに議論し、大きなモデルの整合性に関する将来の研究に利用可能なリソースのコレクションを提供します。

要約(オリジナル)

Big models, exemplified by Large Language Models (LLMs), are models typically pre-trained on massive data and comprised of enormous parameters, which not only obtain significantly improved performance across diverse tasks but also present emergent capabilities absent in smaller models. However, the growing intertwining of big models with everyday human lives poses potential risks and might cause serious social harm. Therefore, many efforts have been made to align LLMs with humans to make them better follow user instructions and satisfy human preferences. Nevertheless, `what to align with’ has not been fully discussed, and inappropriate alignment goals might even backfire. In this paper, we conduct a comprehensive survey of different alignment goals in existing work and trace their evolution paths to help identify the most essential goal. Particularly, we investigate related works from two perspectives: the definition of alignment goals and alignment evaluation. Our analysis encompasses three distinct levels of alignment goals and reveals a goal transformation from fundamental abilities to value orientation, indicating the potential of intrinsic human values as the alignment goal for enhanced LLMs. Based on such results, we further discuss the challenges of achieving such intrinsic value alignment and provide a collection of available resources for future research on the alignment of big models.

arxiv情報

著者 Jing Yao,Xiaoyuan Yi,Xiting Wang,Jindong Wang,Xing Xie
発行日 2023-08-23 09:11:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY パーマリンク