要約
ハブネス、少数のポイントの傾向は、他のポイントの不均衡な数の最近隣人の中にあります。これは、高次元データに標準距離測定を適用すると一般的に発生し、多くの場合、距離ベースの分析に悪影響を及ぼします。
自己回帰の大手言語モデル(LLMS)は高次元表現で動作するため、それらがハブネスの影響を受けているかどうかを尋ねます。
理論的には、LLMSによって実行される唯一の表現比較操作、すなわち、継続確率を決定するためのコンテキストと具体化されていないベクトルの間で、通常、厄介なハブネスの出現を引き起こす距離現象の濃度によって特徴付けられないことを示しています。
次に、この比較が依然として高度なハブネスにつながることを経験的に示しますが、この場合のハブは妨害を構成しません。
それらはむしろ、次のトークン予測の可能性のある候補者のプールにしばしば現れるコンテキストに変化する頻繁なトークンの結果です。
一方、LLM表現を含む他の距離計算が実行されると、同じ理論的保証はありません。実際、迷惑なハブが現れます。
要約すると、私たちの作品は、一方では、高次元の空間で遍在する一方で、ハブネスが常に緩和する必要がある否定的な特性ではなく、さまざまな広く使用されているLLMSを強調しています。
頻繁なトークンに高い確率を絶えず割り当てることで構成される推測戦略を開発しました。
要約(オリジナル)
Hubness, the tendency for few points to be among the nearest neighbours of a disproportionate number of other points, commonly arises when applying standard distance measures to high-dimensional data, often negatively impacting distance-based analysis. As autoregressive large language models (LLMs) operate on high-dimensional representations, we ask whether they are also affected by hubness. We first show, theoretically, that the only representation comparison operation performed by LLMs, namely that between context and unembedding vectors to determine continuation probabilities, is not characterized by the concentration of distances phenomenon that typically causes the appeareance of nuisance hubness. We then empirically show that this comparison still leads to a high degree of hubness, but the hubs in this case do not constitute a disturbance. They are rather the result of context-modulated frequent tokens often appearing in the pool of likely candidates for next token prediction. On the other hand, when other distance computations involving LLM representations are performed, we do not have the same theoretical guarantees, and, indeed, we see nuisance hubs appear. In summary, our work highlights, on the one hand, how hubness, while omnipresent in high-dimensional spaces, is not always a negative property that needs to be mitigated, and, on the other hand, it shows that various widely-used LLMs have developed a guessing strategy that consists in constantly assigning a high probability to frequent tokens.
arxiv情報
著者 | Beatrix M. G. Nielsen,Iuri Macocco,Marco Baroni |
発行日 | 2025-02-14 14:52:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google