要約
最近の研究は、大規模基礎モデル (LFM) によって生成された出力を利用して、模倣学習を通じて小規模モデルの能力を強化することに焦点を当てています。
浅い LFM 出力からの制限された模倣信号に至るまで、多くの問題がこれらのモデルの品質に影響を与えます。
小規模で均質なトレーニング データ。
そして最も顕著なのは、厳密な評価の欠如であり、小規模モデルは LFM の推論プロセスではなく、スタイルを模倣することを学習する傾向があるため、小規模モデルの能力を過大評価する結果になります。
これらの課題に対処するために、私たちは Orca を開発しました (https://aka.ms/orca-lm で公開される予定の LLaMA のリリース ポリシーに従って、モデルの重みの差分を公開するために法務チームと協力しています)。
LFM の推論プロセスを模倣することを学習する 10 億パラメーター モデル。
Orca は、説明トレースを含む GPT-4 からの豊富な信号から学習します。
段階的な思考プロセス。
およびその他の複雑な指示は、ChatGPT からの教師の支援によって指導されます。
この進歩的な学習を促進するために、私たちは慎重なサンプリングと選択によって大規模で多様な模倣データを利用します。
Orca は、Vicuna-13B などの従来の最先端の命令調整モデルを、Big-Bench Hard (BBH) などの複雑なゼロショット推論ベンチマークで 100% 以上、AGIEval で 42% 以上上回っています。
さらに、Orca は BBH ベンチマークで ChatGPT と同等の成績を達成し、SAT、LSAT、GRE、GMAT などの専門試験および学術試験において、いずれも CoT なしのゼロショット設定で競争力のあるパフォーマンス (最適化されたシステム メッセージとの 4 ポイントの差) を示しています。
GPT-4の後を追いながら。
私たちの研究は、人間が生成したものであっても、より高度な AI モデルが生成したものであっても、ステップバイステップの説明から学習することが、モデルの能力とスキルを向上させるための有望な方向性であることを示しています。
要約(オリジナル)
Recent research has focused on enhancing the capability of smaller models through imitation learning, drawing on the outputs generated by large foundation models (LFMs). A number of issues impact the quality of these models, ranging from limited imitation signals from shallow LFM outputs; small scale homogeneous training data; and most notably a lack of rigorous evaluation resulting in overestimating the small model’s capability as they tend to learn to imitate the style, but not the reasoning process of LFMs. To address these challenges, we develop Orca (We are working with our legal team to publicly release a diff of the model weights in accordance with LLaMA’s release policy to be published at https://aka.ms/orca-lm), a 13-billion parameter model that learns to imitate the reasoning process of LFMs. Orca learns from rich signals from GPT-4 including explanation traces; step-by-step thought processes; and other complex instructions, guided by teacher assistance from ChatGPT. To promote this progressive learning, we tap into large-scale and diverse imitation data with judicious sampling and selection. Orca surpasses conventional state-of-the-art instruction-tuned models such as Vicuna-13B by more than 100% in complex zero-shot reasoning benchmarks like Big-Bench Hard (BBH) and 42% on AGIEval. Moreover, Orca reaches parity with ChatGPT on the BBH benchmark and shows competitive performance (4 pts gap with optimized system message) in professional and academic examinations like the SAT, LSAT, GRE, and GMAT, both in zero-shot settings without CoT; while trailing behind GPT-4. Our research indicates that learning from step-by-step explanations, whether these are generated by humans or more advanced AI models, is a promising direction to improve model capabilities and skills.
arxiv情報
| 著者 | Subhabrata Mukherjee,Arindam Mitra,Ganesh Jawahar,Sahaj Agarwal,Hamid Palangi,Ahmed Awadallah |
| 発行日 | 2023-06-05 08:58:39+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google