Idiom Detection in Sorani Kurdish Texts

要約

自然言語処理(NLP)を使用したイディオム検出は、単語の文字通りの解釈を超えて意味を伝えるテキスト内の比fig的な式を認識するコンピューター化されたプロセスです。
イディオムの検出はさまざまな言語で大きな進歩を遂げていますが、クルド語は、機械翻訳やセンチメント分析などのタスクにおけるイディオムの重要性にもかかわらず、この分野でかなりの研究ギャップに直面しています。
この研究では、ディープラーニングテクニックを使用してテキスト分類タスクとしてアプローチすることにより、Sorani KurdishのIdiom検出について説明します。
これに取り組むために、101個のSorani Kurdish Idiomsをさまざまなコンテキストに埋め込む10,580文を含むデータセットを開発しました。
このデータセットを使用して、3つの深い学習モデルを開発および評価しました。Kubertベースの変圧器シーケンス分類、再発性畳み込みニューラルネットワーク(RCNN)、および注意メカニズムを備えたBILSTMモデルです。
評価により、トランスモデルである微調整されたBERTが他のものを一貫して上回り、RCNNが96.5%、BILSTM 80%を達成した一方で、ほぼ99%の精度を達成したことが明らかになりました。
これらの結果は、クルド人のような低リソース言語でのトランスベースのアーキテクチャの有効性を強調しています。
この研究では、データセット、最適化された3つのモデル、およびイディオム検出に関する洞察を提供し、クルドNLPを推進するための基盤を築きます。

要約(オリジナル)

Idiom detection using Natural Language Processing (NLP) is the computerized process of recognizing figurative expressions within a text that convey meanings beyond the literal interpretation of the words. While idiom detection has seen significant progress across various languages, the Kurdish language faces a considerable research gap in this area despite the importance of idioms in tasks like machine translation and sentiment analysis. This study addresses idiom detection in Sorani Kurdish by approaching it as a text classification task using deep learning techniques. To tackle this, we developed a dataset containing 10,580 sentences embedding 101 Sorani Kurdish idioms across diverse contexts. Using this dataset, we developed and evaluated three deep learning models: KuBERT-based transformer sequence classification, a Recurrent Convolutional Neural Network (RCNN), and a BiLSTM model with an attention mechanism. The evaluations revealed that the transformer model, the fine-tuned BERT, consistently outperformed the others, achieving nearly 99% accuracy while the RCNN achieved 96.5% and the BiLSTM 80%. These results highlight the effectiveness of Transformer-based architectures in low-resource languages like Kurdish. This research provides a dataset, three optimized models, and insights into idiom detection, laying a foundation for advancing Kurdish NLP.

arxiv情報

著者 Skala Kamaran Omer,Hossein Hassani
発行日 2025-01-30 10:15:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク