On Suspicious Coincidences and Pointwise Mutual Information

要約

Barlow (1985) は、$P(A,B) \gg P(A) P(B)$ の場合、2 つのイベント $A$ と $B$ の同時発生は「疑わしい」と仮定しました。
最初に、ユールの $Y$ (Yule, 1912) を含む、$2 \times 2$ 分割表の古典的な関連付けの尺度を確認します。これは、オッズ比 $\lambda$ のみに依存し、表の限界確率とは無関係です。
次に、相関の尺度として、比率 $P(A,B)/P(A)P(B)$ に依存する相互情報量 (MI) と点ごとの相互情報量 (PMI) について説明します。
限界の効果が取り除かれると、MI と PMI は $\lambda$ の関数として $Y$ と同様に動作することを示します。
ポイントごとの相互情報量は、疑わしい偶然の一致にフラグを立てるために一部の研究コミュニティで広く使用されていますが、まばらなイベントのスコアが増加するため、PMI の限界に対する感度に留意することが重要です。

要約(オリジナル)

Barlow (1985) hypothesized that the co-occurrence of two events $A$ and $B$ is ‘suspicious’ if $P(A,B) \gg P(A) P(B)$. We first review classical measures of association for $2 \times 2$ contingency tables, including Yule’s $Y$ (Yule, 1912), which depends only on the odds ratio $\lambda$, and is independent of the marginal probabilities of the table. We then discuss the mutual information (MI) and pointwise mutual information (PMI), which depend on the ratio $P(A,B)/P(A)P(B)$, as measures of association. We show that, once the effect of the marginals is removed, MI and PMI behave similarly to $Y$ as functions of $\lambda$. The pointwise mutual information is used extensively in some research communities for flagging suspicious coincidences, but it is important to bear in mind the sensitivity of the PMI to the marginals, with increased scores for sparser events.

arxiv情報

著者 Christopher K. I. Williams
発行日 2023-03-02 15:53:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, math.IT パーマリンク