Uncovering Meanings of Embeddings via Partial Orthogonality

要約

機械学習ツールは多くの場合、テキストを実数のベクトルとして埋め込むことに依存します。
この論文では、言語の意味構造がそのような埋め込みの代数構造にどのようにエンコードされるかを研究します。
具体的には、例えば「野菜」が与えられれば「ナス」と「トマト」は独立しているという考え方を捉えた「意味的独立性」の概念に注目します。
このような例は直観的ではありますが、意味上の独立性の概念を形式化することは困難です。
ここでの重要な観察は、賢明な形式化は一連のいわゆる独立公理に従う必要があり、したがって、この構造の代数符号化もこれらの公理に従う必要があるということです。
これにより、当然のことながら、関連する代数構造として部分直交性を使用することになります。
私たちは、部分直交性が実際に意味論的な独立性を捉えていることを実証できる理論と方法を開発します。
これを補完するものとして、埋め込みが分布の条件付き独立構造を保存する独立性保持埋め込みの概念も導入し、そのような埋め込みとその近似の存在を証明します。

要約(オリジナル)

Machine learning tools often rely on embedding text as vectors of real numbers. In this paper, we study how the semantic structure of language is encoded in the algebraic structure of such embeddings. Specifically, we look at a notion of “semantic independence” capturing the idea that, e.g., “eggplant” and “tomato” are independent given “vegetable”. Although such examples are intuitive, it is difficult to formalize such a notion of semantic independence. The key observation here is that any sensible formalization should obey a set of so-called independence axioms, and thus any algebraic encoding of this structure should also obey these axioms. This leads us naturally to use partial orthogonality as the relevant algebraic structure. We develop theory and methods that allow us to demonstrate that partial orthogonality does indeed capture semantic independence. Complementary to this, we also introduce the concept of independence preserving embeddings where embeddings preserve the conditional independence structures of a distribution, and we prove the existence of such embeddings and approximations to them.

arxiv情報

著者 Yibo Jiang,Bryon Aragam,Victor Veitch
発行日 2023-10-26 17:34:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, stat.ML パーマリンク