要約
オンラインディスカッションのためのインターネットやソーシャルネットワークの利用が増えるにつれ、ソーシャルネットワーキングサイト上での有害で不適切なコンテンツの拡散も増加しています。
いくつかの研究がさまざまな言語で実施されています。
ただし、南アジア言語については、深層学習技術を使用して不適切なコンテンツを識別する取り組みはあまり行われていません。
ウルドゥー語では、綴りが独特ではなく、人々は同じ単語に対して異なる一般的な綴りを書きますが、テキスト内に英語など他の言語が混在すると、より困難になり、そのような言語を最高の精度で処理するために利用できる研究作業は限られています。
アルゴリズム。
深層学習モデルでアテンション層を使用すると、長期的な依存関係の処理に役立ち、効率が向上します。
アテンション層の効果を調査するために、この研究では、ウルドゥー語 Unicode テキスト言語の不適切なコンテンツを識別するためのアテンションベースの双方向 GRU ハイブリッド モデルを提案します。
4 つの異なるベースライン深層学習モデル。
LSTM、Bi-LSTM、GRU、TCN は、提案されたモデルのパフォーマンスを比較するために使用されます。
これらのモデルの結果は、評価指標、データセットのサイズ、単語埋め込み層の影響に基づいて比較されました。
このケースでは、事前トレーニングされたウルドゥー語 word2Vec 埋め込みが利用されました。
私たちが提案したモデル BiGRU-A は、事前トレーニング済みの word2Vec 層を使用せずに 84\% の精度をもたらし、他のすべてのベースライン モデルを上回りました。
私たちの実験から、アテンション レイヤーによってモデルの効率が向上し、事前トレーニングされた word2Vec 埋め込みは不適切なコンテンツ データセットではうまく機能しないことが確認されました。
要約(オリジナル)
With the increased use of the internet and social networks for online discussions, the spread of toxic and inappropriate content on social networking sites has also increased. Several studies have been conducted in different languages. However, there is less work done for South Asian languages for inappropriate content identification using deep learning techniques. In Urdu language, the spellings are not unique, and people write different common spellings for the same word, while mixing it other languages, like English in the text makes it more challenging, and limited research work is available to process such language with the finest algorithms. The use of attention layer with a deep learning model can help handling the long-term dependencies and increase its efficiency . To explore the effects of the attention layer, this study proposes attention-based Bidirectional GRU hybrid model for identifying inappropriate content in Urdu Unicode text language. Four different baseline deep learning models; LSTM, Bi-LSTM, GRU, and TCN, are used to compare the performance of the proposed model. The results of these models were compared based on evaluation metrics, dataset size, and impact of the word embedding layer. The pre-trained Urdu word2Vec embeddings were utilized for our case. Our proposed model BiGRU-A outperformed all other baseline models by yielding 84\% accuracy without using pre-trained word2Vec layer. From our experiments, we have established that the attention layer improves the model’s efficiency, and pre-trained word2Vec embedding does not work well with an inappropriate content dataset.
arxiv情報
著者 | Ezzah Shoukat,Rabia Irfan,Iqra Basharat,Muhammad Ali Tahir,Sameen Shaukat |
発行日 | 2025-01-16 18:10:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google