要約
大規模言語モデル(LLM)は、複雑な推論を必要とする幅広いタスクにおいて、驚くべき能力を発揮してきた。しかし、その推論能力に対するスケーリングの効果はまだ十分に理解されていない。本論文では、実世界の大規模知識グラフの構造と分布を忠実に再現するように設計された合成マルチホップ推論環境を紹介する。我々の推論タスクは、グラフの欠落したエッジを補完するものであり、高度なマルチホップ推論を必要とし、実世界の推論シナリオを模倣している。これを評価するために、不完全グラフのトリプルのみを用いてゼロから言語モデル(LM)を事前学習し、欠落したエッジを推論する能力を評価する。興味深いことに、過度のパラメータ化は、過度の記憶により推論性能を低下させる可能性がある。グラフ構造、モデルサイズ、学習ステップなど、このU字型の損失曲線に影響を与える様々な要因を調査する。特定の知識グラフに対する最適なモデルサイズを予測するために、知識グラフの探索エントロピーを最適なモデルサイズに線形に対応付ける経験的なスケーリングを発見する。本研究は、LLMにおけるスケーリングと推論の関係について新たな知見を提供し、推論タスクに対してLLMの性能を最適化するための可能な方法に光を当てる。
要約(オリジナル)
Large Language Models (LLMs) have demonstrated remarkable capabilities across a wide range of tasks requiring complex reasoning. However, the effects of scaling on their reasoning abilities remain insufficiently understood. In this paper, we introduce a synthetic multihop reasoning environment designed to closely replicate the structure and distribution of real-world large-scale knowledge graphs. Our reasoning task involves completing missing edges in the graph, which requires advanced multi-hop reasoning and mimics real-world reasoning scenarios. To evaluate this, we pretrain language models (LMs) from scratch solely on triples from the incomplete graph and assess their ability to infer the missing edges. Interestingly, we observe that overparameterization can impair reasoning performance due to excessive memorization. We investigate different factors that affect this U-shaped loss curve, including graph structure, model size, and training steps. To predict the optimal model size for a specific knowledge graph, we find an empirical scaling that linearly maps the knowledge graph search entropy to the optimal model size. This work provides new insights into the relationship between scaling and reasoning in LLMs, shedding light on possible ways to optimize their performance for reasoning tasks.
arxiv情報
著者 | Xinyi Wang,Shawn Tan,Mingyu Jin,William Yang Wang,Rameswar Panda,Yikang Shen |
発行日 | 2025-04-04 17:57:22+00:00 |
arxivサイト | arxiv_id(pdf) |