Unsupervised detection of semantic correlations in big data

要約

実世界のデータでは、情報は非常に大きな特徴ベクトルに格納されます。
これらの変数は通常、多くの機能が同時に関与する複雑な相互作用により相関しています。
このような相関関係は意味論的な役割に定性的に対応しており、人間の脳と人工ニューラル ネットワークの両方によって自然に認識されます。
この認識により、たとえば、画像やテキストの欠落部分をコンテキストに基づいて予測できます。
我々は、2 進数で表現された高次元データにおけるこれらの相関を検出する方法を提案します。
データセットのバイナリ固有次元を推定します。これは、データを記述するために必要な独立座標の最小数を定量化するものであり、したがって意味論的な複雑さの代用となります。
提案されたアルゴリズムは、いわゆる次元の呪いの影響をほとんど受けないため、ビッグ データ分析に使用できます。
私たちは、モデル磁気システムの相転移を特定するこのアプローチをテストし、それをディープ ニューラル ネットワーク内の画像とテキストの意味相関の検出に適用します。

要約(オリジナル)

In real-world data, information is stored in extremely large feature vectors. These variables are typically correlated due to complex interactions involving many features simultaneously. Such correlations qualitatively correspond to semantic roles and are naturally recognized by both the human brain and artificial neural networks. This recognition enables, for instance, the prediction of missing parts of an image or text based on their context. We present a method to detect these correlations in high-dimensional data represented as binary numbers. We estimate the binary intrinsic dimension of a dataset, which quantifies the minimum number of independent coordinates needed to describe the data, and is therefore a proxy of semantic complexity. The proposed algorithm is largely insensitive to the so-called curse of dimensionality, and can therefore be used in big data analysis. We test this approach identifying phase transitions in model magnetic systems and we then apply it to the detection of semantic correlations of images and text inside deep neural networks.

arxiv情報

著者 Santiago Acevedo,Alex Rodriguez,Alessandro Laio
発行日 2024-11-04 14:37:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, physics.comp-ph パーマリンク