Towards Unsupervised Recognition of Semantic Differences in Related Documents

要約

2 つの文書間で意味上の違いを引き起こす単語を自動的に強調表示することは、幅広いアプリケーションに役立つ可能性があります。
私たちは意味的差異の認識 (RSD) をトークンレベルの回帰タスクとして定式化し、マスクされた言語モデルに依存する 3 つの教師なしアプローチを研究します。
アプローチを評価するために、基本的な英語の文章から始めて、徐々により複雑な言語をまたがる文書のペアに移行します。
私たちの結果は、単語のアライメントと文レベルの対照学習に基づくアプローチがゴールドラベルと強い相関関係があることを示しています。
ただし、すべての教師なしアプローチにはまだ大きな改善の余地が残されています。
実験を再現するコードは https://github.com/ZurichNLP/recognizing-semantic-differences で入手できます。

要約(オリジナル)

Automatically highlighting words that cause semantic differences between two documents could be useful for a wide range of applications. We formulate recognizing semantic differences (RSD) as a token-level regression task and study three unsupervised approaches that rely on a masked language model. To assess the approaches, we begin with basic English sentences and gradually move to more complex, cross-lingual document pairs. Our results show that an approach based on word alignment and sentence-level contrastive learning has a robust correlation to gold labels. However, all unsupervised approaches still leave a large margin of improvement. Code to reproduce our experiments is available at https://github.com/ZurichNLP/recognizing-semantic-differences

arxiv情報

著者 Jannis Vamvas,Rico Sennrich
発行日 2023-05-22 17:58:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク