要約
単語の埋め込みは自然言語処理において最も重要なコンポーネントの 1 つですが、高次元の埋め込みの解釈は依然として困難な問題です。
この問題に対処するには、独立成分分析 (ICA) が効果的な解決策として認識されています。
ICA で変換された単語の埋め込みにより、解釈可能な意味軸が明らかになります。
ただし、これらの軸の順序は任意です。
本研究ではこの性質に着目し、軸の順序を最適化する新しい手法「Axis Tour」を提案する。
1 次元の単語埋め込み手法である Word Tour からインスピレーションを得て、軸の意味的連続性を最大化することで単語埋め込み空間の明瞭性を向上させることを目指しています。
さらに、下流タスクの実験を通じて、Axis Tour が PCA と ICA の両方と比較して、より優れた、または同等の低次元埋め込みを生成することを示します。
要約(オリジナル)
Word embedding is one of the most important components in natural language processing, but interpreting high-dimensional embeddings remains a challenging problem. To address this problem, Independent Component Analysis (ICA) is identified as an effective solution. ICA-transformed word embeddings reveal interpretable semantic axes; however, the order of these axes are arbitrary. In this study, we focus on this property and propose a novel method, Axis Tour, which optimizes the order of the axes. Inspired by Word Tour, a one-dimensional word embedding method, we aim to improve the clarity of the word embedding space by maximizing the semantic continuity of the axes. Furthermore, we show through experiments on downstream tasks that Axis Tour yields better or comparable low-dimensional embeddings compared to both PCA and ICA.
arxiv情報
著者 | Hiroaki Yamagiwa,Yusuke Takase,Hidetoshi Shimodaira |
発行日 | 2024-06-13 13:44:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google