要約
テキストのセマンティック解釈の主な方法の 1 つは、テキストを埋め込み空間のベクトルにマッピングすることです。
このようなベクトルは、さまざまなテキスト処理タスクに使用できます。
最近では、ほとんどの埋め込みスペースは、大規模な言語モデルのトレーニングの成果です。
このタイプの表現の主な欠点の 1 つは、人間には理解できないことです。
埋め込みスペースを理解することは、埋め込みを使用するシステムの決定を説明する必要性、埋め込み方法をデバッグして代替方法と比較する必要性、モデルに隠されたバイアスを検出する必要性など、いくつかの重要なニーズにとって非常に重要です。
この論文では、任意の埋め込み空間をわかりやすい概念空間に変換する新しい方法を提示します。
最初に、動的なオンデマンドの粒度で概念空間を導出するためのアルゴリズムを提示します。
次に、元の不可解空間の任意のベクトルを概念空間の可読ベクトルに変換する方法を示します。
人間によるテストとクロスモデル テストを組み合わせて、概念化されたベクトルが実際に元のベクトルのセマンティクスを表していることを示します。
また、元の空間の根底にあるセマンティクスの弱点や代替モデルのセマンティクスの違いを特定するなど、概念化されたベクトルをさまざまなタスクに使用する方法も示します。
要約(オリジナル)
One of the main methods for semantic interpretation of text is mapping it into a vector in some embedding space. Such vectors can then be used for a variety of text processing tasks. Recently, most embedding spaces are a product of training large language models. One major drawback of this type of representation is its incomprehensibility to humans. Understanding the embedding space is crucial for several important needs, including the need to explain the decision of a system that uses the embedding, the need to debug the embedding method and compare it to alternatives, and the need to detect biases hidden in the model. In this paper, we present a novel method of transforming any embedding space into a comprehensible conceptual space. We first present an algorithm for deriving a conceptual space with dynamic on-demand granularity. We then show a method for transferring any vector in the original incomprehensible space to an understandable vector in the conceptual space. We combine human tests with cross-model tests to show that the conceptualized vectors indeed represent the semantics of the original vectors. We also show how the conceptualized vectors can be used for various tasks including identifying weaknesses in the semantics underlying the original spaces and differences in the semantics of alternative models.
arxiv情報
著者 | Adi Simhi,Shaul Markovitch |
発行日 | 2023-02-19 13:06:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google