Mixture of insighTful Experts (MoTE): The Synergy of Thought Chains and Expert Mixtures in Self-Alignment

要約

大規模言語モデル (LLM) の機能が劇的に拡張されたため、これらのモデルを人間の価値観に合わせることが大きな課題となり、展開中に潜在的なリスクが生じます。
従来の調整戦略は、教師付き微調整 (SFT) やヒューマン フィードバックからの強化学習 (RLHF) などの人間の介入、または LLM の自己調整能力に大きく依存しており、通常、元のレベルを改善するには強力な LLM の創発的な能力が必要です。
悪い答え。
これらの課題に対処するために、私たちは、AlignCoT と呼ばれる、思考連鎖 (CoT) アプローチを利用した新しい自己調整方法を提案します。
この方法には、質問分析、回答ガイダンス、および安全な回答作成の段階が含まれます。
これは、LLM が開発のさまざまな段階を通じて高品質で安全な応答を生成できるように設計されています。
さらに、専門家の混合を適用して AlignCoT プロセスの各コンポーネントを強化し、アライメント効率を大幅に向上させる Mixture of insighTful Experts (MoTE) アーキテクチャを導入します。
MoTE のアプローチは、LLM を人間の価値観に合わせるという点で既存の方法よりも優れているだけでなく、自己生成データを使用する利点を強調し、調整とトレーニングの効率の向上という二重の利点を明らかにしています。

要約(オリジナル)

As the capabilities of large language models (LLMs) have expanded dramatically, aligning these models with human values presents a significant challenge, posing potential risks during deployment. Traditional alignment strategies rely heavily on human intervention, such as Supervised Fine-Tuning (SFT) and Reinforcement Learning from Human Feedback (RLHF), or on the self-alignment capacities of LLMs, which usually require a strong LLM’s emergent ability to improve its original bad answer. To address these challenges, we propose a novel self-alignment method that utilizes a Chain of Thought (CoT) approach, termed AlignCoT. This method encompasses stages of Question Analysis, Answer Guidance, and Safe Answer production. It is designed to enable LLMs to generate high-quality, safe responses throughout various stages of their development. Furthermore, we introduce the Mixture of insighTful Experts (MoTE) architecture, which applies the mixture of experts to enhance each component of the AlignCoT process, markedly increasing alignment efficiency. The MoTE approach not only outperforms existing methods in aligning LLMs with human values but also highlights the benefits of using self-generated data, revealing the dual benefits of improved alignment and training efficiency.

arxiv情報

著者 Zhili Liu,Yunhao Gou,Kai Chen,Lanqing Hong,Jiahui Gao,Fei Mi,Yu Zhang,Zhenguo Li,Xin Jiang,Qun Liu,James T. Kwok
発行日 2024-05-01 15:06:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク