要約
画像とテキストの入力を受け入れ、テキスト出力を生成できる大規模なマルチモーダル モデルである GPT-4 の開発について報告します。
多くの現実世界のシナリオでは人間よりも能力が劣りますが、GPT-4 は、受験者の上位 10% 前後のスコアでシミュレートされた司法試験に合格するなど、さまざまな専門的および学術的ベンチマークで人間レベルのパフォーマンスを示します。
GPT-4 は、ドキュメント内の次のトークンを予測するために事前トレーニングされた Transformer ベースのモデルです。
トレーニング後の調整プロセスにより、事実の測定と望ましい行動への順守のパフォーマンスが向上します。
このプロジェクトの中心的な要素は、さまざまな規模で予測どおりに動作するインフラストラクチャと最適化の方法を開発することでした。
これにより、GPT-4 の 1,000 分の 1 以下の計算でトレーニングされたモデルに基づいて、GPT-4 のパフォーマンスのいくつかの側面を正確に予測することができました。
要約(オリジナル)
We report the development of GPT-4, a large-scale, multimodal model which can accept image and text inputs and produce text outputs. While less capable than humans in many real-world scenarios, GPT-4 exhibits human-level performance on various professional and academic benchmarks, including passing a simulated bar exam with a score around the top 10% of test takers. GPT-4 is a Transformer-based model pre-trained to predict the next token in a document. The post-training alignment process results in improved performance on measures of factuality and adherence to desired behavior. A core component of this project was developing infrastructure and optimization methods that behave predictably across a wide range of scales. This allowed us to accurately predict some aspects of GPT-4’s performance based on models trained with no more than 1/1,000th the compute of GPT-4.
arxiv情報
著者 | OpenAI |
発行日 | 2023-03-15 17:15:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google