要約
自然言語処理モデルの潜在空間の幾何学的特性を理解すると、これらの特性を操作して下流タスクのパフォーマンスを向上させることができます。
そのようなプロパティの 1 つは、モデルの潜在空間に広がるデータの量、または利用可能な潜在空間がどの程度完全に使用されているかです。
この研究では、データの広がりを定義し、データの広がりの一般的に使用される尺度である平均コサイン類似度と分配関数の最小/最大比 I(V) が、モデル間の潜在空間の使用を比較するための信頼できる指標を提供しないことを実証します。
私たちは、データ拡散に関する 8 つの代替尺度を提案および検討します。7 つの合成データ分布に適用すると、1 つを除くすべてが現在の指標よりも改善されます。
私たちが提案する尺度のうち、信頼性の高い相対的な広がりの尺度を提供し、さまざまなサイズと次元のモデルを比較するために使用できる主成分ベースの尺度とエントロピー ベースの尺度を 1 つずつ推奨します。
要約(オリジナル)
Understanding geometric properties of natural language processing models’ latent spaces allows the manipulation of these properties for improved performance on downstream tasks. One such property is the amount of data spread in a model’s latent space, or how fully the available latent space is being used. In this work, we define data spread and demonstrate that the commonly used measures of data spread, Average Cosine Similarity and a partition function min/max ratio I(V), do not provide reliable metrics to compare the use of latent space across models. We propose and examine eight alternative measures of data spread, all but one of which improve over these current metrics when applied to seven synthetic data distributions. Of our proposed measures, we recommend one principal component-based measure and one entropy-based measure that provide reliable, relative measures of spread and can be used to compare models of different sizes and dimensionalities.
arxiv情報
著者 | Anna C. Marbut,Katy McKinney-Bock,Travis J. Wheeler |
発行日 | 2023-07-31 19:11:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google