要約
大規模言語モデル (LLM) は顕著な機能を示していますが、その推論能力と基礎となるメカニズムはまだよく理解されていません。
追加のトレーニング データを使用せずに、注意メカニズムの最適化を通じて LLM の推論を強化する新しいアプローチを紹介します。
私たちは、非意味論的トークンによって引き起こされる注意分布の非効率性を特定し、偏った分布のバランスを再調整するアルゴリズムを提案し、モデルがより微妙な知識を抽象化できるようにします。
私たちの実験では、特に非 STEM の質問について、推論能力が大幅に向上していることが実証されました。
私たちは、LLM の推論における注意パターンの役割についての洞察を提供し、これらの能力を強化して、より強力で汎用性の高い言語モデルへの道を開く方法を提案します。
要約(オリジナル)
Large Language Models (LLMs) have shown remarkable capabilities, but their reasoning abilities and underlying mechanisms remain poorly understood. We present a novel approach to enhance LLMs’ reasoning through attention mechanism optimization, without additional training data. We identify inefficiencies in the attention distribution caused by non-semantic tokens and propose an algorithm to re-balance the skewed distribution, enabling the model to abstract more nuanced knowledge. Our experiments demonstrate significantly improved reasoning capabilities, particularly for non-STEM questions. We provide insights into the role of attention patterns in LLMs’ reasoning and propose a method to enhance these abilities, paving the way for more powerful and versatile language models.
arxiv情報
著者 | Bingli Liao,Danilo Vasconcellos Vargas |
発行日 | 2024-04-05 10:15:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google