Aligned at the Start: Conceptual Groupings in LLM Embeddings

要約

このペーパーでは、焦点を見越えられている入力埋め込み、つまりトランスブロックに供給される初期表現に焦点を移します。
ファジーグラフ、k-nearest neighter(k-nn)、およびコミュニティ検出を使用して、多様なLLMからの埋め込みを分析し、人間と整合した事前定義された概念とカテゴリに沿った重要なカテゴリーコミュニティ構造を見つけます。
これらのグループ化は、クラスター内の組織(階層、トポロジー秩序など)を示すことを観察し、文脈処理に先行する基本構造を仮定します。
これらのグループの概念性をさらに調査するために、入力埋め込み内のさまざまなLLMカテゴリにわたってクロスモデルアライメントを検討し、中程度から高度のアライメントを観察します。
さらに、これらのグループを操作することで、LLMタスクの民族性バイアスを緩和する上で機能的な役割を果たすことができるという証拠を提供します。

要約(オリジナル)

This paper shifts focus to the often-overlooked input embeddings – the initial representations fed into transformer blocks. Using fuzzy graph, k-nearest neighbor (k-NN), and community detection, we analyze embeddings from diverse LLMs, finding significant categorical community structure aligned with predefined concepts and categories aligned with humans. We observe these groupings exhibit within-cluster organization (such as hierarchies, topological ordering, etc.), hypothesizing a fundamental structure that precedes contextual processing. To further investigate the conceptual nature of these groupings, we explore cross-model alignments across different LLM categories within their input embeddings, observing a medium to high degree of alignment. Furthermore, provide evidence that manipulating these groupings can play a functional role in mitigating ethnicity bias in LLM tasks.

arxiv情報

著者 Mehrdad Khatir,Sanchit Kabra,Chandan K. Reddy
発行日 2025-02-24 17:53:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク