Elevating Code-mixed Text Handling through Auditory Information of Words

要約

コード混合データの人気が高まるにつれ、このタイプのデータをより適切に処理する必要性が高まっています。これにより、スペルの違い、複数の言語、異なるスクリプト、リソースの不足への対応など、多くの課題が生じています。
現在の言語モデルは、主に単語の意味表現に重点を置き、聴覚的な音声特徴を無視しているため、コードが混在したデータを効果的に処理することが困難に直面しています。
これにより、コードが混在したテキストのスペルのバリエーションを処理することが困難になります。
本稿では、SOUNDEXの単語の聴覚情報を利用してコード混在テキストデータを扱うための言語モデルを作成するための効果的な手法を提案する。
私たちのアプローチには、SOUNDEX 表現 (SAMLM) と事前トレーニングされたモデルに入力データを提供する新しい方法を含む、マスクされた言語モデリングに基づく事前トレーニング ステップが含まれています。
センチメント、攻撃的、攻撃性の分類タスク用に (さまざまな言語の) コードが混合されたさまざまなデータセットでの実験を通じて、新しい言語モデリング アプローチ (SAMLM) により、コードが混合された分類タスクに対する敵対的攻撃に対する堅牢性が向上することを確立しました。
さらに、SAMLM ベースのアプローチにより、コードが混在したタスクの一般的なベースラインよりも優れた分類結果が得られます。
説明可能性手法である SHAP (SHapley Additive exPlanations) を使用して、SAMLM を通じて組み込まれた聴覚機能がモデルがコード混合テキストを効果的に処理し、敵対的攻撃に対する堅牢性を高めるのにどのように役立つかを説明します \footnote{ソース コードは \url で入手可能です
{https://github.com/20118/ DefenseWithPhonetics}、\url{https://www.iitp.ac.in/~ai-nlp-ml/resources.html\#Phonetics}}。

要約(オリジナル)

With the growing popularity of code-mixed data, there is an increasing need for better handling of this type of data, which poses a number of challenges, such as dealing with spelling variations, multiple languages, different scripts, and a lack of resources. Current language models face difficulty in effectively handling code-mixed data as they primarily focus on the semantic representation of words and ignore the auditory phonetic features. This leads to difficulties in handling spelling variations in code-mixed text. In this paper, we propose an effective approach for creating language models for handling code-mixed textual data using auditory information of words from SOUNDEX. Our approach includes a pre-training step based on masked-language-modelling, which includes SOUNDEX representations (SAMLM) and a new method of providing input data to the pre-trained model. Through experimentation on various code-mixed datasets (of different languages) for sentiment, offensive and aggression classification tasks, we establish that our novel language modeling approach (SAMLM) results in improved robustness towards adversarial attacks on code-mixed classification tasks. Additionally, our SAMLM based approach also results in better classification results over the popular baselines for code-mixed tasks. We use the explainability technique, SHAP (SHapley Additive exPlanations) to explain how the auditory features incorporated through SAMLM assist the model to handle the code-mixed text effectively and increase robustness against adversarial attacks \footnote{Source code has been made available on \url{https://github.com/20118/DefenseWithPhonetics}, \url{https://www.iitp.ac.in/~ai-nlp-ml/resources.html\#Phonetics}}.

arxiv情報

著者 Mamta,Zishan Ahmad,Asif Ekbal
発行日 2023-10-27 14:03:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク