要約
サンプル式間のセマンティックな類似性は、潜在的な「意味」の間の距離を測定します。
このような意味自体は通常、テキスト表現で表されますが、多くの場合、細かい粒度で概念を区別するには不十分です。
テキスト表現間のセマンティックな類似性が、それらが言い換えることができる他の表現に基づいているのではなく、それらが呼び起こす画像に基づいている新しいアプローチを提案します。
これは人間では不可能ですが、生成モデルにより、生成された画像またはその分布をテキストプロンプトで誘発することを簡単に視覚化および比較することができます。
したがって、2つのテキスト式間のセマンティックな類似性を特徴づけます。単に、誘導する画像分布、または「召喚」します。
各テキスト式によって誘導される逆時間拡散確率微分方程式(SDE)間のジェンセンシャノンの発散を選択することにより、これはモンテカルロサンプリングを介して直接計算できることを示します。
私たちの方法は、人間が発音したスコアと一致するだけでなく、テキスト条件の生成モデルの評価のための新しい道を開きながら、学習表現のより良い解釈可能性を提供するセマンティックな類似性に関する新しい視点に貢献します。
要約(オリジナル)
The semantic similarity between sample expressions measures the distance between their latent ‘meaning’. Such meanings are themselves typically represented by textual expressions, often insufficient to differentiate concepts at fine granularity. We propose a novel approach whereby the semantic similarity among textual expressions is based not on other expressions they can be rephrased as, but rather based on the imagery they evoke. While this is not possible with humans, generative models allow us to easily visualize and compare generated images, or their distribution, evoked by a textual prompt. Therefore, we characterize the semantic similarity between two textual expressions simply as the distance between image distributions they induce, or ‘conjure.’ We show that by choosing the Jensen-Shannon divergence between the reverse-time diffusion stochastic differential equations (SDEs) induced by each textual expression, this can be directly computed via Monte-Carlo sampling. Our method contributes a novel perspective on semantic similarity that not only aligns with human-annotated scores, but also opens up new avenues for the evaluation of text-conditioned generative models while offering better interpretability of their learnt representations.
arxiv情報
著者 | Tian Yu Liu,Stefano Soatto |
発行日 | 2025-01-29 14:14:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google