要約
文脈上の単語表現に基づくシーケンスのタグ付けタスクの一般的なアプローチは、これらの埋め込みベクトルに対して直接機械学習分類子をトレーニングすることです。
このアプローチには 2 つの欠点があります。
第一に、そのような方法は単一の入力シーケンスを分離して考慮し、現在のローカル使用コンテキスト外のベクトルに関連して個々の埋め込みベクトルを配置することができません。
第 2 に、これらのモデルの高いパフォーマンスは、分類器と組み合わせた埋め込みモデルの微調整に依存していますが、基礎となる特徴生成モデルのサイズやアクセス不能により、常に実現可能であるとは限りません。
したがって、コーパス、すなわちデータストアの埋め込みベクトルの集合が与えられた場合、データストア内の他の同様のベクトルとの関係を記述する各ベクトルの特徴を見つけることが望ましい。
これを念頭に置いて、特定のデータストアに関する文脈言語モデルの潜在空間のローカル トポロジの複雑さの尺度を導入します。
私たちの機能の有効性は、対話用語抽出への適用を通じて実証されます。
私たちの研究は、単語埋め込みの多様体仮説を調査する一連の研究を継続し、単語埋め込みによって切り出された空間の局所構造を意味論的特性の推論に利用できることを実証しています。
要約(オリジナル)
A common approach for sequence tagging tasks based on contextual word representations is to train a machine learning classifier directly on these embedding vectors. This approach has two shortcomings. First, such methods consider single input sequences in isolation and are unable to put an individual embedding vector in relation to vectors outside the current local context of use. Second, the high performance of these models relies on fine-tuning the embedding model in conjunction with the classifier, which may not always be feasible due to the size or inaccessibility of the underlying feature-generation model. It is thus desirable, given a collection of embedding vectors of a corpus, i.e., a datastore, to find features of each vector that describe its relation to other, similar vectors in the datastore. With this in mind, we introduce complexity measures of the local topology of the latent space of a contextual language model with respect to a given datastore. The effectiveness of our features is demonstrated through their application to dialogue term extraction. Our work continues a line of research that explores the manifold hypothesis for word embeddings, demonstrating that local structure in the space carved out by word embeddings can be exploited to infer semantic properties.
arxiv情報
| 著者 | Benjamin Matthias Ruppik,Michael Heck,Carel van Niekerk,Renato Vukovic,Hsien-chin Lin,Shutong Feng,Marcus Zibrowius,Milica Gašić |
| 発行日 | 2024-08-07 11:44:32+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google