要約
コード混合文の分析や生成のための現在の計算機的アプローチは、コード混合文の「自然さ」や「受け入れ可能性」を明示的にモデル化しておらず、受け入れ可能なコード混合文の分布を反映するための学習コーパスに依存している。コード混合文の受け入れ可能性に関する人間の判断をモデル化することは、自然なコード混合文を区別するのに役立ち、コード混合文の品質管理を可能にする。この目的のために、我々はClineを構築した。Clineは、英語とヒンディー語(en-hi)のコード混合テキストに対する人間の受容性判断を含むデータセットである。Clineは16,642文からなるこの種のデータセットとしては最大規模であり、合成的に生成されたコード混合テキストとオンラインソーシャルメディアから収集されたサンプルの2つのソースから構成されている。我々の分析により、CMI、スイッチポイント数、バースティンなどの一般的なコードミキシングメトリクスは、コードミックスコーパスのフィルタリング/キュレーション/比較に使用されるが、人間の受容性判断との相関が低いことが立証され、我々のデータセットの必要性が強調された。Clineを用いた実験では、単純な多層パーセプトロン(MLP)モデルをコードミキシングメトリクスのみを特徴として用いて訓練した場合、事前に訓練された多言語大規模言語モデル(MLLM)よりも優れていることが実証された。具体的には、エンコーダモデルの中では、XLM-RobertaとBerniceが、様々な構成においてIndicBERTを上回る。エンコーダ-デコーダモデルの中では、mBARTがmT5よりも性能が良いが、エンコーダ-デコーダモデルはエンコーダのみのモデルを上回ることはできない。デコーダのみのモデルは、他のすべてのMLLMSと比較した場合、Llama 3.2-3Bモデルが同規模のQwen、Phiモデルを上回り、最高のパフォーマンスを示しています。ChatGPTのゼロショットおよび少数ショット機能との比較では、より大きなデータで微調整されたMLLMがChatGPTを上回り、コード混在タスクでの改善の余地があることを示しています。ゼロショットによるEn-HiからEn-Teへの可用性判定は、ランダムベースラインよりも優れている。
要約(オリジナル)
Current computational approaches for analysing or generating code-mixed sentences do not explicitly model “naturalness” or “acceptability” of code-mixed sentences, but rely on training corpora to reflect distribution of acceptable code-mixed sentences. Modelling human judgement for the acceptability of code-mixed text can help in distinguishing natural code-mixed text and enable quality-controlled generation of code-mixed text. To this end, we construct Cline – a dataset containing human acceptability judgements for English-Hindi~(en-hi) code-mixed text. Cline is the largest of its kind with 16,642 sentences, consisting of samples sourced from two sources: synthetically generated code-mixed text and samples collected from online social media. Our analysis establishes that popular code-mixing metrics such as CMI, Number of Switch Points, Burstines, which are used to filter/curate/compare code-mixed corpora have low correlation with human acceptability judgements, underlining the necessity of our dataset. Experiments using Cline demonstrate that simple Multilayer Perceptron (MLP) models when trained solely using code-mixing metrics as features are outperformed by fine-tuned pre-trained Multilingual Large Language Models (MLLMs). Specifically, among Encoder models XLM-Roberta and Bernice outperform IndicBERT across different configurations. Among Encoder-Decoder models, mBART performs better than mT5, however Encoder-Decoder models are not able to outperform Encoder-only models. Decoder-only models perform the best when compared to all other MLLMS, with Llama 3.2 – 3B models outperforming similarly sized Qwen, Phi models. Comparison with zero and fewshot capabilitites of ChatGPT show that MLLMs fine-tuned on larger data outperform ChatGPT, providing scope for improvement in code-mixed tasks. Zero-shot transfer from En-Hi to En-Te acceptability judgments are better than random baselines.
arxiv情報
著者 | Prashant Kodali,Anmol Goel,Likhith Asapu,Vamshi Krishna Bonagiri,Anirudh Govil,Monojit Choudhury,Ponnurangam Kumaraguru,Manish Shrivastava |
発行日 | 2025-05-05 14:51:58+00:00 |
arxivサイト | arxiv_id(pdf) |