Contextualized Semantic Distance between Highly Overlapped Texts

要約

テキスト編集や意味的類似性評価などの自然言語処理タスクでは、ペアになったテキストで重複が頻繁に発生します。
重なった文間の意味論的な距離をより適切に評価することは、言語システムの理解に利益をもたらし、生成の指針となります。
従来の意味メトリクスは単語表現に基づいているため、類似した表現を持つ重複したコンポーネントの妨害に対して脆弱です。
このペーパーは、マスクと予測の戦略でこの問題に対処することを目的としています。
最長共通シーケンス (LCS) 内の単語を隣接する単語として取得し、事前トレーニング済み言語モデル (PLM) からのマスク言語モデリング (MLM) を使用して、その位置の分布を予測します。
私たちのメトリクスである隣接分布発散 (NDD) は、重なっている部分の分布間の発散を計算することによって意味論的な距離を表します。
意味的テキストの類似性に関する実験では、NDD がさまざまな意味上の違い、特に高度に重複したペアのテキストに対してより敏感であることが示されています。
この発見に基づいて、教師なしでトレーニング不要のテキスト圧縮手法をさらに実装し、以前の複雑さに基づく手法の大幅な改善につながりました。
私たちの手法の高いスケーラビリティにより、NDD はドメイン適応において教師ありの最先端技術を大幅に上回るパフォーマンスを発揮することさえ可能になります。
構文解析と意味解析に関するさらなる実験により、内部文構造の認識が検証され、NDD のさらなる研究の可能性が高いことが示されました。

要約(オリジナル)

Overlapping frequently occurs in paired texts in natural language processing tasks like text editing and semantic similarity evaluation. Better evaluation of the semantic distance between the overlapped sentences benefits the language system’s understanding and guides the generation. Since conventional semantic metrics are based on word representations, they are vulnerable to the disturbance of overlapped components with similar representations. This paper aims to address the issue with a mask-and-predict strategy. We take the words in the longest common sequence (LCS) as neighboring words and use masked language modeling (MLM) from pre-trained language models (PLMs) to predict the distributions on their positions. Our metric, Neighboring Distribution Divergence (NDD), represent the semantic distance by calculating the divergence between distributions in the overlapped parts. Experiments on Semantic Textual Similarity show NDD to be more sensitive to various semantic differences, especially on highly overlapped paired texts. Based on the discovery, we further implement an unsupervised and training-free method for text compression, leading to a significant improvement on the previous perplexity-based method. The high scalability of our method even enables NDD to outperform the supervised state-of-the-art in domain adaption by a huge margin. Further experiments on syntax and semantics analyses verify the awareness of internal sentence structures, indicating the high potential of NDD for further studies.

arxiv情報

著者 Letian Peng,Zuchao Li,Hai Zhao
発行日 2023-06-13 16:46:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク