Neural Thermodynamic Laws for Large Language Model Training

要約

神経尺度の法則を超えて、大規模な言語モデル(LLM)の根底にある法律についてはほとんど知られていません。
神経熱力学法(NTL)を紹介します。これは、LLMトレーニングダイナミクスに関する新鮮な洞察を提供する新しいフレームワークです。
理論的な側面では、主要な熱力学量(温度、エントロピー、熱容量、熱伝導)および古典的な熱力学的原理(たとえば、熱力学の3つの法則と等量整算定理)が自然に河川谷の損失景観の仮定の下で自然に出現することを示しています。
実用的な面では、この科学的観点は、学習率のスケジュールを設計するための直感的なガイドラインをもたらします。

要約(オリジナル)

Beyond neural scaling laws, little is known about the laws underlying large language models (LLMs). We introduce Neural Thermodynamic Laws (NTL) — a new framework that offers fresh insights into LLM training dynamics. On the theoretical side, we demonstrate that key thermodynamic quantities (e.g., temperature, entropy, heat capacity, thermal conduction) and classical thermodynamic principles (e.g., the three laws of thermodynamics and the equipartition theorem) naturally emerge under river-valley loss landscape assumptions. On the practical side, this scientific perspective yields intuitive guidelines for designing learning rate schedules.

arxiv情報

著者 Ziming Liu,Yizhou Liu,Jeff Gore,Max Tegmark
発行日 2025-05-15 17:59:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, physics.data-an, stat.ML パーマリンク