要約
この論文では、弱から強への一般化 (W2SG) に関する OpenAI の最近のスーパーアライメント作業に対する追跡調査を紹介します。
スーパーアライメントは、複雑でリスクの高いタスクを処理する際に、高レベルの AI システムが人間の価値観や意図と一貫性を保てるようにすることに重点を置いています。
W2SG フレームワークは、この進化する分野における実証研究に新たな可能性をもたらしました。
私たちの研究は、W2SG フレームワークの下での超調整の 2 つの段階、つまり一般的な超人モデルの開発と超知能への進歩をシミュレートします。
最初のフェーズでは、人間による監督に基づいて、スケーラブルな監視とアンサンブル学習の組み合わせによって弱い監督の質が向上し、弱い教師と強い生徒の間の能力差が減少します。
第 2 フェーズでは、自動アライメント評価器が弱いスーパーバイザとして使用されます。
この自動アライナを再帰的に更新することで、弱い教師モデルの機能が同期的に強化され、より強力な生徒モデルに対する弱から強への監視が実現されます。また、第 1 フェーズで提案されたアプローチの初期検証も提供します。
SciQ タスクを例として使用し、バギングとブースティングを通じて弱い教師モデルのアンサンブル学習を調査します。
スケーラブルな監視は、人間と AI の相互作用と AI と AI の議論という 2 つの補助設定を通じて検討されます。
さらに、この論文では、弱い監視の改善が、コンテキスト内学習に基づいた弱から強への汎化の強化に及ぼす影響についても議論しています。
実験コードとデータセットは https://github.com/ADaM-BJTU/W2SG でリリースされます。
要約(オリジナル)
This paper presents a follow-up study to OpenAI’s recent superalignment work on Weak-to-Strong Generalization (W2SG). Superalignment focuses on ensuring that high-level AI systems remain consistent with human values and intentions when dealing with complex, high-risk tasks. The W2SG framework has opened new possibilities for empirical research in this evolving field. Our study simulates two phases of superalignment under the W2SG framework: the development of general superhuman models and the progression towards superintelligence. In the first phase, based on human supervision, the quality of weak supervision is enhanced through a combination of scalable oversight and ensemble learning, reducing the capability gap between weak teachers and strong students. In the second phase, an automatic alignment evaluator is employed as the weak supervisor. By recursively updating this auto aligner, the capabilities of the weak teacher models are synchronously enhanced, achieving weak-to-strong supervision over stronger student models.We also provide an initial validation of the proposed approach for the first phase. Using the SciQ task as example, we explore ensemble learning for weak teacher models through bagging and boosting. Scalable oversight is explored through two auxiliary settings: human-AI interaction and AI-AI debate. Additionally, the paper discusses the impact of improved weak supervision on enhancing weak-to-strong generalization based on in-context learning. Experiment code and dataset will be released at https://github.com/ADaM-BJTU/W2SG.
arxiv情報
| 著者 | Jitao Sang,Yuhang Wang,Jing Zhang,Yanxu Zhu,Chao Kong,Junhong Ye,Shuyu Wei,Jinlin Xiao |
| 発行日 | 2024-02-01 15:30:19+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google