要約
言い換え識別タスクには、2 つの短い文間の意味上の類似性を測定することが含まれます。
これは難しい作業であり、多言語の言い換えを特定することはさらに困難です。
この研究では、複数の言語にわたる難しい言い換えを検出するために、対照的な方法でバイエンコーダー モデルをトレーニングします。
このアプローチにより、モデルで生成された埋め込みをセマンティック検索などのさまざまなタスクに使用できるようになります。
私たちは下流のタスクでモデルを評価し、埋め込み空間の品質も評価します。
私たちのパフォーマンスは最先端のクロスエンコーダーに匹敵し、選択したデータセットでの相対的な低下は 7 ~ 10% と最小限であり、埋め込みの適切な品質を維持しています。
要約(オリジナル)
The paraphrase identification task involves measuring semantic similarity between two short sentences. It is a tricky task, and multilingual paraphrase identification is even more challenging. In this work, we train a bi-encoder model in a contrastive manner to detect hard paraphrases across multiple languages. This approach allows us to use model-produced embeddings for various tasks, such as semantic search. We evaluate our model on downstream tasks and also assess embedding space quality. Our performance is comparable to state-of-the-art cross-encoders, with only a minimal relative drop of 7-10% on the chosen dataset, while keeping decent quality of embeddings.
arxiv情報
著者 | Inessa Fedorova,Aleksei Musatow |
発行日 | 2024-06-21 11:37:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google