要約
最先端の AI システムは、Web ブラウザを使用するようにシステムを微調整するなど、初期トレーニング後に適用される「トレーニング後の強化」技術によって、高価な再トレーニングを行わなくても大幅に改善できます。
最近のトレーニング後の機能強化をレビューし、ツールの使用、プロンプト方法、足場、ソリューションの選択、データ生成の 5 つのタイプに分類します。
さまざまな機能強化によりさまざまなタスクのパフォーマンスが向上するため、その重要性を比較することが困難になります。
そこで、さまざまな機能強化による改善を共通の通貨であるコンピューティング等価ゲインに変換します。つまり、機能強化と同じ量だけパフォーマンスを向上させるには、どのくらいの追加のトレーニング コンピューティングが必要になるかということです。
私たちの非実験的研究では、トレーニング後の機能強化には大きなメリットがあることが示されています。調査されたほとんどの機能強化では、トレーニング コンピューティングの 5 倍以上、中には 20 倍以上増加してベンチマークのパフォーマンスが向上しました。
トレーニング後の機能強化は比較的安価に開発できます。微調整コストは通常、元のトレーニング コストの 1% 未満です。
フロンティアモデルは幅広いアクターによって強化される可能性があるため、有能なトレーニング後の強化機能の開発を管理することは困難になる可能性があります。
要約(オリジナル)
State-of-the-art AI systems can be significantly improved without expensive retraining via ‘post-training enhancements’-techniques applied after initial training like fine-tuning the system to use a web browser. We review recent post-training enhancements, categorizing them into five types: tool-use, prompting methods, scaffolding, solution selection, and data generation. Different enhancements improve performance on different tasks, making it hard to compare their significance. So we translate improvements from different enhancements into a common currency, the compute-equivalent gain: how much additional training compute would be needed to improve performance by the same amount as the enhancement. Our non-experimental work shows that post-training enhancements have significant benefits: most surveyed enhancements improve benchmark performance by more than a 5x increase in training compute, some by more than 20x. Post-training enhancements are relatively cheap to develop: fine-tuning costs are typically <1% of the original training cost. Governing the development of capable post-training enhancements may be challenging because frontier models could be enhanced by a wide range of actors.
arxiv情報
著者 | Tom Davidson,Jean-Stanislas Denain,Pablo Villalobos,Guillem Bas |
発行日 | 2023-12-12 16:34:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google