LEA: Improving Sentence Similarity Robustness to Typos Using Lexical Attention Bias

要約

タイプミスや略語などのテキスト ノイズは、ほとんどの下流タスクでバニラ Transformer にペナルティを与えるよく知られた問題です。
これは、複数の領域における基本的なタスクである文の類似性にも当てはまることを示します。
一致、検索、または言い換え。
文の類似性は、クロスエンコーダを使用してアプローチできます。クロスエンコーダでは、2 つの文が入力内で連結され、モデルがそれらの間の相互関係を利用できるようになります。
ノイズ問題に対処するこれまでの研究は、主にデータ拡張戦略に依存しており、トレーニングに使用されたものと同様の破損したサンプルを処理する際の堅牢性が向上していることが示されています。
ただし、これらの方法はすべて、タイプミスによって引き起こされるトークン分布の変化に依然として悩まされています。
この研究では、両方の文の単語間の語彙の類似性を組み込んだ新しい LExical-aware Attendment モジュール (LEA) をクロスエンコーダに装備することで、テキスト ノイズに取り組むことを提案します。
生のテキストの類似性を使用することにより、私たちのアプローチはトークン化シフトの問題を回避し、堅牢性を向上させます。
LEA によって導入された注意バイアスが、特に短いテキストの説明と限定されたコンテキストを持つドメインにおいて、クロスエンコーダーがテキスト ノイズのある複雑なシナリオに取り組むのに役立つことを実証します。
製品マッチングのために 5 つの e コマース データセットで 3 つの人気のある Transformer エンコーダを使用した実験では、LEA が元の (クリーンな) スプリットで競争力を維持しながら、ノイズの存在下でも一貫してパフォーマンスを向上させることが示されました。
また、テキスト含意と言い換えについて 2 つのデータセットでアプローチを評価し、LEA がより長い文とより自然なコンテキストを持つドメインでのタイプミスに対して堅牢であることを示しています。
さらに、私たちはアプローチにおけるいくつかの設計上の選択を徹底的に分析し、行われた決定の影響についての洞察を提供し、タイプミスに対処するクロスエンコーダーの将来の研究を促進します。

要約(オリジナル)

Textual noise, such as typos or abbreviations, is a well-known issue that penalizes vanilla Transformers for most downstream tasks. We show that this is also the case for sentence similarity, a fundamental task in multiple domains, e.g. matching, retrieval or paraphrasing. Sentence similarity can be approached using cross-encoders, where the two sentences are concatenated in the input allowing the model to exploit the inter-relations between them. Previous works addressing the noise issue mainly rely on data augmentation strategies, showing improved robustness when dealing with corrupted samples that are similar to the ones used for training. However, all these methods still suffer from the token distribution shift induced by typos. In this work, we propose to tackle textual noise by equipping cross-encoders with a novel LExical-aware Attention module (LEA) that incorporates lexical similarities between words in both sentences. By using raw text similarities, our approach avoids the tokenization shift problem obtaining improved robustness. We demonstrate that the attention bias introduced by LEA helps cross-encoders to tackle complex scenarios with textual noise, specially in domains with short-text descriptions and limited context. Experiments using three popular Transformer encoders in five e-commerce datasets for product matching show that LEA consistently boosts performance under the presence of noise, while remaining competitive on the original (clean) splits. We also evaluate our approach in two datasets for textual entailment and paraphrasing showing that LEA is robust to typos in domains with longer sentences and more natural context. Additionally, we thoroughly analyze several design choices in our approach, providing insights about the impact of the decisions made and fostering future research in cross-encoders dealing with typos.

arxiv情報

著者 Mario Almagro,Emilio Almazán,Diego Ortego,David Jiménez
発行日 2023-07-06 10:53:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク