Towards Resolving Word Ambiguity with Word Embeddings

要約

あいまいさは自然言語に遍在しています。
曖昧な意味を解決することは、情報検索タスクにおいて特に重要です。
単語の埋め込みには意味情報が含まれていますが、曖昧さをうまく処理できません。
Transformer モデルは、複雑なクエリの単語のあいまいさを処理することが示されていますが、あいまいな単語を識別するために使用することはできません。
1 単語のクエリの場合。
さらに、これらのモデルのトレーニングには時間、ハードウェア リソース、トレーニング データの点でコストがかかるため、機密データを含む特殊な環境での使用は禁止されています。
単語の埋め込みは、適度なハードウェア リソースを使用してトレーニングできます。
この論文は、DBSCAN クラスタリングを潜在空間に適用すると、曖昧な単語を識別し、その曖昧さのレベルを評価できることを示します。
DBSCAN パラメータの自動選択により、意味的に一貫性があり、特定の単語の認識された意味によく対応する高品質のクラスターが得られます。

要約(オリジナル)

Ambiguity is ubiquitous in natural language. Resolving ambiguous meanings is especially important in information retrieval tasks. While word embeddings carry semantic information, they fail to handle ambiguity well. Transformer models have been shown to handle word ambiguity for complex queries, but they cannot be used to identify ambiguous words, e.g. for a 1-word query. Furthermore, training these models is costly in terms of time, hardware resources, and training data, prohibiting their use in specialized environments with sensitive data. Word embeddings can be trained using moderate hardware resources. This paper shows that applying DBSCAN clustering to the latent space can identify ambiguous words and evaluate their level of ambiguity. An automatic DBSCAN parameter selection leads to high-quality clusters, which are semantically coherent and correspond well to the perceived meanings of a given word.

arxiv情報

著者 Matthias Thurnbauer,Johannes Reisinger,Christoph Goller,Andreas Fischer
発行日 2023-07-25 11:29:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク