A Distribution-Based Threshold for Determining Sentence Similarity

要約

ここでは、意味論的テキスト類似性 (STS) 問題の解決策を紹介します。この問題では、唯一の識別要素として非常に具体的な情報 (名前、住所、識別コードなど) を含む 2 つの文を照合する必要があります。
それらがどのような場合に似ているのか、またどのような場合に似ていないのかの定義を導き出すためです。
このソリューションは、シャム アーキテクチャに基づくニューラル ネットワークの使用を中心に展開し、類似した文と異なる文のペア間の距離の分布を作成します。
これらの分布の目的は、「しきい値」と呼ばれる識別因子を見つけることです。これは、新しい予測やその後の分析において、類似したペアのベクトル距離と異なるペアのベクトル距離を区別するために使用できる、明確に定義された量を表します。
さらに、分布の特徴と距離関数の仕組みの両方からの属性を組み合わせて、予測にスコアを付ける方法を開発しました。
最後に、議論したシステムを STS 問題のよく知られ広く使用されているベンチマーク データセットに適用することで、結果をより広範囲のドメインに転送できることを示す結果を一般化します。

要約(オリジナル)

We hereby present a solution to a semantic textual similarity (STS) problem in which it is necessary to match two sentences containing, as the only distinguishing factor, highly specific information (such as names, addresses, identification codes), and from which we need to derive a definition for when they are similar and when they are not. The solution revolves around the use of a neural network, based on the siamese architecture, to create the distributions of the distances between similar and dissimilar pairs of sentences. The goal of these distributions is to find a discriminating factor, that we call ‘threshold’, which represents a well-defined quantity that can be used to distinguish vector distances of similar pairs from vector distances of dissimilar pairs in new predictions and later analyses. In addition, we developed a way to score the predictions by combining attributes from both the distributions’ features and the way the distance function works. Finally, we generalize the results showing that they can be transferred to a wider range of domains by applying the system discussed to a well-known and widely used benchmark dataset for STS problems.

arxiv情報

著者 Gioele Cadamuro,Marco Gruppo
発行日 2023-11-28 10:42:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク