要約
独立コンポーネント分析 (ICA) は、埋め込みの解釈可能なセマンティック コンポーネントを提供します。
ICA 理論では、エンベディングが独立したコンポーネントに線形に分解できると想定していますが、実際のデータはこの前提を満たさないことがよくあります。
その結果、推定されたコンポーネント間には非独立性が残り、ICA ではそれを除去することができません。
私たちは高次の相関を使用してこれらの非独立性を定量化し、2 つのコンポーネント間の高次の相関が大きい場合、それはそれらの間に強い意味的関連性があり、両方のコンポーネントと共通の意味を共有する多くの単語が存在することを示していることを実証しました。
非独立性の構造全体は、セマンティック コンポーネントの最大スパニング ツリーを使用して視覚化されました。
これらの調査結果は、ICA を介した埋め込みに関するより深い洞察を提供します。
要約(オリジナル)
Independent Component Analysis (ICA) offers interpretable semantic components of embeddings. While ICA theory assumes that embeddings can be linearly decomposed into independent components, real-world data often do not satisfy this assumption. Consequently, non-independencies remain between the estimated components, which ICA cannot eliminate. We quantified these non-independencies using higher-order correlations and demonstrated that when the higher-order correlation between two components is large, it indicates a strong semantic association between them, along with many words sharing common meanings with both components. The entire structure of non-independencies was visualized using a maximum spanning tree of semantic components. These findings provide deeper insights into embeddings through ICA.
arxiv情報
| 著者 | Momose Oyama,Hiroaki Yamagiwa,Hidetoshi Shimodaira |
| 発行日 | 2024-10-09 14:57:48+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google