Statistical Depth for Ranking and Characterizing Transformer-Based Text Embeddings

要約

トランスフォーマーベースのテキスト埋め込みの人気により、そのような埋め込みの分布を測定するためのより優れた統計ツールが求められています。
そのようなツールの 1 つは、コーパス内のテキストを中心性によってランク付けする方法です。つまり、各テキストに、そのテキストがコーパス全体をどの程度代表しているかを示す番号を割り当てます。
ただし、高次元テキスト表現の本質的な中心から外側への順序付けは簡単ではありません。
統計的深さは、観察されたいくつかの k 次元分布に関する中心性を測定することによって、k 次元オブジェクトをランク付けするための関数です。
トランスフォーマーベースのテキスト埋め込みの分布、トランスフォーマーベースのテキスト埋め込み (TTE) 深度を測定するために統計的な深さを採用し、NLP パイプラインでのモデリングと分布推論の両方に対するこの深さの実際的な使用法を紹介します。
まず、2 つのコーパスが埋め込み空間で大きく異なるかどうかを判断するための TTE 深度と、関連するランク合計テストを定義します。
次に、コンテキスト内学習プロンプト選択のタスクに TTE 深度を使用し、このアプローチが 6 つのテキスト分類タスクにわたって統計的ベースライン アプローチよりも確実にパフォーマンスを向上させることを示します。
最後に、TTE 深度と関連するランク合計テストを使用して、合成コーパスと人間が生成したコーパスの分布を特徴付けます。これにより、最近の 5 つの合成データ拡張プロセスが、関連する人間が生成したテキストからの分布のシフトが測定可能なほど生じていることを示します。

要約(オリジナル)

The popularity of transformer-based text embeddings calls for better statistical tools for measuring distributions of such embeddings. One such tool would be a method for ranking texts within a corpus by centrality, i.e. assigning each text a number signifying how representative that text is of the corpus as a whole. However, an intrinsic center-outward ordering of high-dimensional text representations is not trivial. A statistical depth is a function for ranking k-dimensional objects by measuring centrality with respect to some observed k-dimensional distribution. We adopt a statistical depth to measure distributions of transformer-based text embeddings, transformer-based text embedding (TTE) depth, and introduce the practical use of this depth for both modeling and distributional inference in NLP pipelines. We first define TTE depth and an associated rank sum test for determining whether two corpora differ significantly in embedding space. We then use TTE depth for the task of in-context learning prompt selection, showing that this approach reliably improves performance over statistical baseline approaches across six text classification tasks. Finally, we use TTE depth and the associated rank sum test to characterize the distributions of synthesized and human-generated corpora, showing that five recent synthetic data augmentation processes cause a measurable distributional shift away from associated human-generated text.

arxiv情報

著者 Parker Seegmiller,Sarah Masud Preum
発行日 2023-10-23 15:02:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク