要約
GPTに代表される大規模言語モデル(LLM)は、大規模なウェブクロールデータセット内の潜在分布を学習し、次のトークンを予測することで自然言語処理(NLP)タスクを達成すると考えられている。しかし、この潜在分布モデリングのメカニズムは定量的な理解と分析に欠けている。本論文では、あらゆる言語データセットをモンテカルロ言語木(データ木と略す)で表現するという新しい視点を提案する。GPTのような言語モデルは、別のモンテカルロ言語木(“GPT-Tree”と略す)に平坦化することもできる。我々の実験によれば、同じデータセットで学習された異なるGPTモデルは、GPT-Treeの可視化において構造的な類似性を示し、より大きなモデルはよりData-Treeに近く収束する。87%以上のGPT出力トークンがData-Treeによって想起される。これらの結果は、LLMの推論過程が、形式的推論というよりも、確率的パターンマッチングである可能性が高いことを裏付けている。さらに、LLMにおける幻覚、思考連鎖(CoT)推論、トークン・バイアスなどの問題についても深い洞察を与える。
要約(オリジナル)
Large Language Models (LLMs), such as GPT, are considered to learn the latent distributions within large-scale web-crawl datasets and accomplish natural language processing (NLP) tasks by predicting the next token. However, this mechanism of latent distribution modeling lacks quantitative understanding and analysis. In this paper, we propose a novel perspective that any language dataset can be represented by a Monte Carlo Language Tree (abbreviated as “Data-Tree”), where each node denotes a token, each edge denotes a token transition probability, and each sequence has a unique path. Any GPT-like language model can also be flattened into another Monte Carlo Language Tree (abbreviated as “GPT-Tree”). Our experiments show that different GPT models trained on the same dataset exhibit significant structural similarity in GPT-Tree visualization, and larger models converge more closely to the Data-Tree. More than 87\% GPT output tokens can be recalled by Data-Tree. These findings may confirm that the reasoning process of LLMs is more likely to be probabilistic pattern-matching rather than formal reasoning, as each model inference seems to find a context pattern with maximum probability from the Data-Tree. Furthermore, we provide deeper insights into issues such as hallucination, Chain-of-Thought (CoT) reasoning, and token bias in LLMs.
arxiv情報
著者 | Kun-Peng Ning,Jia-Yu Yao,Yu-Yang Liu,Mu-Nan Ning,Li Yuan |
発行日 | 2025-02-03 07:19:24+00:00 |
arxivサイト | arxiv_id(pdf) |