要約
ニューラルスケーリング法則は、モデルサイズ、データセットボリューム、および計算リソースの間の予測可能な関係を明らかにすることにより、大規模AIモデルの設計と最適化に革命をもたらしました。
初期の研究により、モデルパフォーマンスにおける電力法関係が確立され、最適なスケーリング戦略が計算されました。
ただし、最近の研究では、アーキテクチャ、モダリティ、展開コンテキスト全体の制限が強調されています。
まばらなモデル、混合物の混合物、検索された学習学習、およびマルチモーダルモデルは、多くの場合、従来のスケーリングパターンから逸脱します。
さらに、スケーリングの動作は、ビジョン、強化学習、微調整などのドメインによって異なり、より微妙なアプローチの必要性を強調しています。
この調査では、50を超える研究からの洞察を統合し、理論的基礎、経験的調査結果、およびスケーリング法の実際的な意味を調べます。
また、現実世界のアプリケーションに合わせた適応スケーリング戦略を提唱する、データ効率、推論スケーリング、アーキテクチャ固有の制約などの重要な課題についても探ります。
スケーリング法は有用なガイドを提供しますが、すべてのアーキテクチャとトレーニング戦略に常に一般化するとは限らないことをお勧めします。
要約(オリジナル)
Neural scaling laws have revolutionized the design and optimization of large-scale AI models by revealing predictable relationships between model size, dataset volume, and computational resources. Early research established power-law relationships in model performance, leading to compute-optimal scaling strategies. However, recent studies highlighted their limitations across architectures, modalities, and deployment contexts. Sparse models, mixture-of-experts, retrieval-augmented learning, and multimodal models often deviate from traditional scaling patterns. Moreover, scaling behaviors vary across domains such as vision, reinforcement learning, and fine-tuning, underscoring the need for more nuanced approaches. In this survey, we synthesize insights from over 50 studies, examining the theoretical foundations, empirical findings, and practical implications of scaling laws. We also explore key challenges, including data efficiency, inference scaling, and architecture-specific constraints, advocating for adaptive scaling strategies tailored to real-world applications. We suggest that while scaling laws provide a useful guide, they do not always generalize across all architectures and training strategies.
arxiv情報
著者 | Ayan Sengupta,Yash Goel,Tanmoy Chakraborty |
発行日 | 2025-02-17 17:20:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google