Exploring Interpretability of Independent Components of Word Embeddings with Automated Word Intruder Test

要約

独立成分分析 (ICA) は、元々は、同じ部屋にいる複数の人が同時に話している録音など、混合信号内の別々のソースを見つけるために開発されたアルゴリズムです。
主成分分析 (PCA) とは異なり、ICA では、特定の特徴が他の特徴よりも重要であるとみなされることなく、単語を非構造化特徴セットとして表現することができます。
この論文では、ICA を使用して単語の埋め込みを分析しました。
ICA を使用して単語の意味的特徴を見つけることができ、これらの特徴を簡単に組み合わせて、その組み合わせを満たす単語を検索できることがわかりました。
独立したコンポーネントのほとんどがそのような特徴を表すことを示します。
コンポーネントの解釈可能性を定量化するために、人間と大規模な言語モデルの両方によって実行される侵入者テストという言葉を使用します。
私たちは、人間の労力を必要とせずにベクトルの解釈可能性を定量化する迅速かつ安価な方法として、ワードイントルーダーテストの自動化バージョンを使用することを提案します。

要約(オリジナル)

Independent Component Analysis (ICA) is an algorithm originally developed for finding separate sources in a mixed signal, such as a recording of multiple people in the same room speaking at the same time. Unlike Principal Component Analysis (PCA), ICA permits the representation of a word as an unstructured set of features, without any particular feature being deemed more significant than the others. In this paper, we used ICA to analyze word embeddings. We have found that ICA can be used to find semantic features of the words, and these features can easily be combined to search for words that satisfy the combination. We show that most of the independent components represent such features. To quantify the interpretability of the components, we use the word intruder test, performed both by humans and by large language models. We propose to use the automated version of the word intruder test as a fast and inexpensive way of quantifying vector interpretability without the need for human effort.

arxiv情報

著者 Tomáš Musil,David Mareček
発行日 2024-09-04 09:20:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク