A Comprehensive Overview of Large Language Models

要約

大規模言語モデル (LLM) は、多数のモデルの開発につながる優れた一般化機能を示しています。
これらのモデルは、さまざまな新しいアーキテクチャを提案し、洗練されたトレーニング戦略で既存のアーキテクチャを微調整し、コンテキストの長さを増やし、高品質のトレーニング データを使用し、ベースラインを上回るパフォーマンスを得るためにトレーニング時間を増やします。
新しい展開を分析することは、トレーニングの安定性を高め、LLM の一般化を改善する変更を特定するために重要です。
この調査論文は、LLM のアーキテクチャとその分類、トレーニング戦略、トレーニング データセット、パフォーマンス評価を包括的に分析し、将来の研究の方向性について議論します。
さらに、この文書では、LLM の背後にある基本的な構成要素と概念についても説明し、その後、LLM の重要な特徴や機能を含む LLM の完全な概要を説明します。
最後に、この論文は LLM 研究から得られた重要な発見を要約し、高度な LLM を開発するための重要なアーキテクチャおよびトレーニング戦略を統合します。
LLM の継続的な進歩を考慮して、新しいセクションを追加し、最新の LLM モデルを特集することで、この文書を定期的に更新する予定です。

要約(オリジナル)

Large Language Models (LLMs) have shown excellent generalization capabilities that have led to the development of numerous models. These models propose various new architectures, tweaking existing architectures with refined training strategies, increasing context length, using high-quality training data, and increasing training time to outperform baselines. Analyzing new developments is crucial for identifying changes that enhance training stability and improve generalization in LLMs. This survey paper comprehensively analyses the LLMs architectures and their categorization, training strategies, training datasets, and performance evaluations and discusses future research directions. Moreover, the paper also discusses the basic building blocks and concepts behind LLMs, followed by a complete overview of LLMs, including their important features and functions. Finally, the paper summarizes significant findings from LLM research and consolidates essential architectural and training strategies for developing advanced LLMs. Given the continuous advancements in LLMs, we intend to regularly update this paper by incorporating new sections and featuring the latest LLM models.

arxiv情報

著者 Humza Naveed,Asad Ullah Khan,Shi Qiu,Muhammad Saqib,Saeed Anwar,Muhammad Usman,Nick Barnes,Ajmal Mian
発行日 2023-07-12 20:01:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク