要約
言語識別 (LI) はさまざまな自然言語処理タスクにとって重要であり、感情分析、機械翻訳、情報検索などのアプリケーションの基礎的なステップとして機能します。
インドのような多言語社会では、特にソーシャルメディアを利用する若者の間で、テキストにコードミキシングが見られ、さまざまな言語レベルで現地の言語と英語が混ざっていることがよくあります。
この現象は、特に複数の言語が単一の単語内で混在する場合に、LI システムにとって大きな課題となります。
インド南部で普及しているドラヴィダ語は、豊富な形態学的構造を持っていますが、デジタル プラットフォームでは過小評価されており、コミュニケーションにローマ字やハイブリッド文字が採用されています。
この論文では、ドラヴィダ語における単語レベルの LI の課題に対処することを目的とした共有タスクのプロンプトベースの方法を紹介します。
この研究では、GPT-3.5 Turbo を活用して、大規模な言語モデルが単語を正しいカテゴリに正しく分類できるかどうかを理解しました。
私たちの調査結果では、ほとんどの指標においてカンナダ語モデルがタミル語モデルを常に上回っており、カンナダ語言語インスタンスの識別と分類における精度と信頼性が高いことを示しています。
対照的に、タミル語モデルは中程度のパフォーマンスを示し、特に精度と再現率の改善が必要でした。
要約(オリジナル)
Language Identification (LI) is crucial for various natural language processing tasks, serving as a foundational step in applications such as sentiment analysis, machine translation, and information retrieval. In multilingual societies like India, particularly among the youth engaging on social media, text often exhibits code-mixing, blending local languages with English at different linguistic levels. This phenomenon presents formidable challenges for LI systems, especially when languages intermingle within single words. Dravidian languages, prevalent in southern India, possess rich morphological structures yet suffer from under-representation in digital platforms, leading to the adoption of Roman or hybrid scripts for communication. This paper introduces a prompt based method for a shared task aimed at addressing word-level LI challenges in Dravidian languages. In this work, we leveraged GPT-3.5 Turbo to understand whether the large language models is able to correctly classify words into correct categories. Our findings show that the Kannada model consistently outperformed the Tamil model across most metrics, indicating a higher accuracy and reliability in identifying and categorizing Kannada language instances. In contrast, the Tamil model showed moderate performance, particularly needing improvement in precision and recall.
arxiv情報
著者 | Aniket Deroy,Subhankar Maity |
発行日 | 2024-11-06 16:20:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google