要約
大規模な言語モデル(LLM)は、ドメイン全体のテキストモデリングタスクで大きな成功を示しています。
ただし、自然言語は、固有のセマンティック階層と微妙な幾何学的構造を示しています。これは、ユークリッド作戦に依存しているため、現在のLLMは完全にはキャプチャしません。
また、最近の研究では、トークン埋め込みのジオメトリを尊重しないと、訓練の不安定性と生成能力の分解につながることが示されています。
これらの調査結果は、非ユークリッドの幾何学にシフトすることで、言語モデルが基礎となるテキストの幾何学をより適切に調整できることを示唆しています。
したがって、私たちは、その広大でスケールフリーで、低耐性の低い特性で知られる双曲線空間で完全に動作することを提案します。
したがって、双曲線の大型言語モデルのファミリーであるヘルムを紹介し、表現の柔軟性、必要な操作の欠落セット、既存の双曲線LMSのスケーラビリティの低下に対処するトランスベースのLLMの幾何学的再考を提供します。
さらに、混合混合専門家モデルであるヘルムマイスを紹介します。ここでは、各専門家が異なる曲率空間で動作し、テキストからより微調整された幾何学的構造と密なモデル、Helm-Dをエンコードします。
ヘルムマスの場合、効率的で低いKVキャッシュトレーニングと推論のために、双曲線マルチヘッド潜在的注意(HMLA)をさらに開発します。
両方のモデルについて、回転位置エンコーディングとRMS正規化の必須双曲線同等物を開発します。
私たちは、10億パラメータースケールで完全な双曲線LLMSを最初に訓練し、MMLUやARCなどのよく知られたベンチマークでそれらを評価し、STEM問題解決、一般的な知識、および常識的な推論にまたがります。
私たちの結果は、LlamaとDeepseekで使用されているユークリッドアーキテクチャよりも、最大4%のヘルムアーキテクチャから一貫した利益を示しており、大規模なLM前脱出における双曲線ジオメトリによってもたらされる有効性と強化された推論を強調しています。
要約(オリジナル)
Large language models (LLMs) have shown great success in text modeling tasks across domains. However, natural language exhibits inherent semantic hierarchies and nuanced geometric structure, which current LLMs do not capture completely owing to their reliance on Euclidean operations. Recent studies have also shown that not respecting the geometry of token embeddings leads to training instabilities and degradation of generative capabilities. These findings suggest that shifting to non-Euclidean geometries can better align language models with the underlying geometry of text. We thus propose to operate fully in Hyperbolic space, known for its expansive, scale-free, and low-distortion properties. We thus introduce HELM, a family of HypErbolic Large Language Models, offering a geometric rethinking of the Transformer-based LLM that addresses the representational inflexibility, missing set of necessary operations, and poor scalability of existing hyperbolic LMs. We additionally introduce a Mixture-of-Curvature Experts model, HELM-MICE, where each expert operates in a distinct curvature space to encode more fine-grained geometric structure from text, as well as a dense model, HELM-D. For HELM-MICE, we further develop hyperbolic Multi-Head Latent Attention (HMLA) for efficient, reduced-KV-cache training and inference. For both models, we develop essential hyperbolic equivalents of rotary positional encodings and RMS normalization. We are the first to train fully hyperbolic LLMs at billion-parameter scale, and evaluate them on well-known benchmarks such as MMLU and ARC, spanning STEM problem-solving, general knowledge, and commonsense reasoning. Our results show consistent gains from our HELM architectures — up to 4% — over popular Euclidean architectures used in LLaMA and DeepSeek, highlighting the efficacy and enhanced reasoning afforded by hyperbolic geometry in large-scale LM pretraining.
arxiv情報
著者 | Neil He,Rishabh Anand,Hiren Madhu,Ali Maatouk,Smita Krishnaswamy,Leandros Tassiulas,Menglin Yang,Rex Ying |
発行日 | 2025-05-30 15:42:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google