Leveraging Language Identification to Enhance Code-Mixed Text Classification

要約

同じテキスト内で複数の言語を使用することは、コード混合と呼ばれます。
ソーシャル メディア プラットフォーム上で、コード混合データ、特に地域言語と英語の使用の適応度が高まっていることは明らかです。
既存の深層学習モデルは、コード混合テキスト内の暗黙的な言語情報を利用していません。
私たちの研究は、言語拡張アプローチを実験することで、低リソースのコードが混在したヒンディー語と英語のデータセット上で BERT ベースのモデルのパフォーマンスを向上させることを目的としています。
私たちは、データの前処理、単語レベルの言語識別、言語拡張、感情分析などの下流タスクでのモデル トレーニングで構成されるコード混合システムを改善するためのパイプラインを提案します。
BERT モデルでの言語拡張については、言語情報の単語レベルのインターリーブと文後の配置を調査します。
私たちは、バニラ BERT ベースのモデルとそのコードが混合された HingBERT モデルのパフォーマンスをそれぞれのベンチマーク データセットで調べ、単語レベルの言語情報を使用した場合と使用しない場合の結果を比較しました。
モデルは、精度、精度、再現率、F1 スコアなどの指標を使用して評価されました。
私たちの調査結果は、提案された言語拡張アプローチがさまざまな BERT モデル間でうまく機能することを示しています。
私たちは、感情分析、ヘイトスピーチ検出、および感情検出に基づいて、5 つの異なるコード混合ヒンディー語と英語のダウンストリーム データセットに関する言語情報を使用してコード混合テキストを強化することの重要性を実証します。

要約(オリジナル)

The usage of more than one language in the same text is referred to as Code Mixed. It is evident that there is a growing degree of adaption of the use of code-mixed data, especially English with a regional language, on social media platforms. Existing deep-learning models do not take advantage of the implicit language information in the code-mixed text. Our study aims to improve BERT-based models performance on low-resource Code-Mixed Hindi-English Datasets by experimenting with language augmentation approaches. We propose a pipeline to improve code-mixed systems that comprise data preprocessing, word-level language identification, language augmentation, and model training on downstream tasks like sentiment analysis. For language augmentation in BERT models, we explore word-level interleaving and post-sentence placement of language information. We have examined the performance of vanilla BERT-based models and their code-mixed HingBERT counterparts on respective benchmark datasets, comparing their results with and without using word-level language information. The models were evaluated using metrics such as accuracy, precision, recall, and F1 score. Our findings show that the proposed language augmentation approaches work well across different BERT models. We demonstrate the importance of augmenting code-mixed text with language information on five different code-mixed Hindi-English downstream datasets based on sentiment analysis, hate speech detection, and emotion detection.

arxiv情報

著者 Gauri Takawane,Abhishek Phaltankar,Varad Patwardhan,Aryan Patil,Raviraj Joshi,Mukta S. Takalikar
発行日 2023-06-08 06:43:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク