Interpreting Embedding Spaces by Conceptualization

要約

テキストを計算的に解釈する主な方法の 1 つは、テキストを埋め込み空間内のベクトルにマッピングすることです。
このようなベクトルは、さまざまなテキスト処理タスクに使用できます。
最近、ほとんどの埋め込みスペースは、大規模言語モデル (LLM) のトレーニングの成果です。
このタイプの表現の大きな欠点の 1 つは、人間にとって理解できないことです。
埋め込み空間を理解することは、埋め込み手法をデバッグして代替手法と比較する必要性や、モデルに隠れたバイアスを検出する必要性など、いくつかの重要なニーズにとって非常に重要です。
この論文では、潜在的な埋め込み空間を理解可能な概念的空間に変換することにより、埋め込みを理解する新しい方法を紹介します。
動的なオンデマンドの粒度で概念的空間を導出するアルゴリズムを紹介します。
私たちは、人間の評価者または LLM ベースの評価者のいずれかを使用して新しい評価方法を考案し、概念化されたベクトルが実際に元の潜在ベクトルの意味論を表していることを示します。
代替モデルのセマンティクスの比較や LLM の層のトレースなど、さまざまなタスクに対するこの方法の使用法を示します。
コードはオンライン https://github.com/adiSimhi/Interpreting-Embedding-Spaces-by-Conceptualization で入手できます。

要約(オリジナル)

One of the main methods for computational interpretation of a text is mapping it into a vector in some embedding space. Such vectors can then be used for a variety of textual processing tasks. Recently, most embedding spaces are a product of training large language models (LLMs). One major drawback of this type of representation is their incomprehensibility to humans. Understanding the embedding space is crucial for several important needs, including the need to debug the embedding method and compare it to alternatives, and the need to detect biases hidden in the model. In this paper, we present a novel method of understanding embeddings by transforming a latent embedding space into a comprehensible conceptual space. We present an algorithm for deriving a conceptual space with dynamic on-demand granularity. We devise a new evaluation method, using either human rater or LLM-based raters, to show that the conceptualized vectors indeed represent the semantics of the original latent ones. We show the use of our method for various tasks, including comparing the semantics of alternative models and tracing the layers of the LLM. The code is available online https://github.com/adiSimhi/Interpreting-Embedding-Spaces-by-Conceptualization.

arxiv情報

著者 Adi Simhi,Shaul Markovitch
発行日 2023-11-09 13:42:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク