PESTS: Persian_English Cross Lingual Corpus for Semantic Textual Similarity

要約

最近多くの研究が行われている自然言語処理のコンポーネントの 1 つは、意味論的なテキストの類似性です。
計算言語学と自然言語処理では、単語、語句、段落、テキストの意味上の類似性を評価することが重要です。
単一言語バージョンと複数言語バージョンの両方で提供される 2 つのテキスト部分、段落、またはフレーズの間の意味的類似性の程度を計算することは、意味的類似性として知られています。
言語間の意味的類似性には、ソース言語とターゲット言語の両方にある程度の意味的類似性を持つ文のペアが存在するコーパスが必要です。
既存の言語間意味類似性モデルの多くは、言語間意味類似性データセットが利用できないため機械翻訳を使用しており、機械翻訳エラーの伝播によりモデルの精度が低下します。
一方、機械翻訳に意味的類似性の特徴を使用したい場合、同じ機械翻訳を意味的類似性に使用すべきではありません。
リソースが少ない言語の 1 つであるペルシア語については、この点に関して何の努力も行われておらず、2 つの言語の文脈を理解できるモデルの必要性がこれまで以上に感じられています。
この記事では、ペルシア語と英語の文の間の意味的テキスト類似性のコーパスが、言語学の専門家を利用して初めて作成されました。
このデータセットを PESTS (Persian English Semantic Textual Samerity) と名付けました。
このコーパスには 5375 個の文ペアが含まれています。
また、トランスフォーマーに基づくさまざまなモデルは、このデータセットを使用して微調整されています。
結果は、PESTS データセットを使用すると、XLM ROBERTa モデルのピアソン相関が 85.87% から 95.62% に増加することを示しています。

要約(オリジナル)

One of the components of natural language processing that has received a lot of investigation recently is semantic textual similarity. In computational linguistics and natural language processing, assessing the semantic similarity of words, phrases, paragraphs, and texts is crucial. Calculating the degree of semantic resemblance between two textual pieces, paragraphs, or phrases provided in both monolingual and cross-lingual versions is known as semantic similarity. Cross lingual semantic similarity requires corpora in which there are sentence pairs in both the source and target languages with a degree of semantic similarity between them. Many existing cross lingual semantic similarity models use a machine translation due to the unavailability of cross lingual semantic similarity dataset, which the propagation of the machine translation error reduces the accuracy of the model. On the other hand, when we want to use semantic similarity features for machine translation the same machine translations should not be used for semantic similarity. For Persian, which is one of the low resource languages, no effort has been made in this regard and the need for a model that can understand the context of two languages is felt more than ever. In this article, the corpus of semantic textual similarity between sentences in Persian and English languages has been produced for the first time by using linguistic experts. We named this dataset PESTS (Persian English Semantic Textual Similarity). This corpus contains 5375 sentence pairs. Also, different models based on transformers have been fine-tuned using this dataset. The results show that using the PESTS dataset, the Pearson correlation of the XLM ROBERTa model increases from 85.87% to 95.62%.

arxiv情報

著者 Mohammad Abdous,Poorya Piroozfar,Behrouz Minaei Bidgoli
発行日 2023-09-29 16:12:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク