要約
自然言語処理 (NLP) の分野では、個々の単語の意味論的な意味を捉えるために連続ベクトル表現が重要です。
しかし、単語のセットの表現に関しては、従来のベクトルベースのアプローチでは表現力に問題があり、和集合、交差、補数などの必須の集合演算が欠けていることがよくあります。
量子論理にインスピレーションを得て、事前にトレーニングされた単語埋め込み空間内での単語セットと対応するセット操作の表現を実現します。
線形部分空間にアプローチを基礎付けることで、さまざまな集合演算の効率的な計算が可能になり、連続空間内のメンバーシップ関数のソフト計算が容易になります。
さらに、単語ベクトル内で直接 F スコアを計算できるため、文の類似性の評価への直接的なリンクが確立されます。
広く使用されている事前トレーニング済みの埋め込みとベンチマークを用いた実験では、部分空間ベースの集合演算が、文の類似性と集合検索タスクの両方において、ベクトルベースの集合演算よりも一貫して優れていることを示しました。
要約(オリジナル)
In the field of natural language processing (NLP), continuous vector representations are crucial for capturing the semantic meanings of individual words. Yet, when it comes to the representations of sets of words, the conventional vector-based approaches often struggle with expressiveness and lack the essential set operations such as union, intersection, and complement. Inspired by quantum logic, we realize the representation of word sets and corresponding set operations within pre-trained word embedding spaces. By grounding our approach in the linear subspaces, we enable efficient computation of various set operations and facilitate the soft computation of membership functions within continuous spaces. Moreover, we allow for the computation of the F-score directly within word vectors, thereby establishing a direct link to the assessment of sentence similarity. In experiments with widely-used pre-trained embeddings and benchmarks, we show that our subspace-based set operations consistently outperform vector-based ones in both sentence similarity and set retrieval tasks.
arxiv情報
著者 | Yoichi Ishibashi,Sho Yokoi,Katsuhito Sudoh,Satoshi Nakamura |
発行日 | 2024-04-10 02:16:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google