From Human Judgements to Predictive Models: Unravelling Acceptability in Code-Mixed Sentences

要約

コードが混合された文を分析または生成するための現在の計算アプローチは、コードが混合された文の「自然さ」または「許容性」を明示的にモデル化せず、許容可能なコードが混合された文の分布を反映するコーパスのトレーニングに依存しています。
コード混合テキストの受け入れ可能性について人間の判断をモデル化すると、自然なコード混合テキストの区別に役立ち、コード混合テキストの品質管理された生成が可能になります。
この目的を達成するために、英語とヒンディー語 (en-hi) コードが混在したテキストに対する人間の受容性の判断を含むデータセットである Cline を構築します。
Cline は、16,642 文を含むこの種の文としては最大のもので、合成的に生成されたコード混合テキストとオンライン ソーシャル メディアから収集されたサンプルの 2 つのソースから得られたサンプルで構成されています。
私たちの分析では、コード混合コーパスのフィルタリング/キュレーション/比較に使用される、CMI、スイッチポイント数、バースタインなどの一般的なコード混合メトリクスが、人間の受容性判断との相関が低いことが証明されており、私たちのデータセットの必要性が強調されています。
Cline を使用した実験では、コードミキシング メトリクスのみでトレーニングされた単純な多層パーセプトロン (MLP) モデルが、事前に微調整された多言語大規模言語モデル (MLLM) よりも優れたパフォーマンスを発揮することが実証されました。
特に、XLM-Roberta と Bernice は、困難なデータ設定において、さまざまな構成にわたって IndicBERT よりも優れたパフォーマンスを発揮します。
ChatGPT のゼロおよび少数ショット機能と比較すると、大規模なデータで微調整された MLLM が ChatGPT よりも優れたパフォーマンスを示し、コードが混在するタスクに改善の余地があることがわかります。
当社のモデル チェックポイントを使用した、英語 – ヒンディー語から英語 – テルグ語へのゼロショット移行の許容性判断は、ランダムなベースラインよりも優れていることが証明されており、他のコードが混在する言語ペアへの適用が可能になり、さらなる研究の道が提供されます。
私たちは人間による注釈付きのデータセット、トレーニングされたチェックポイント、コードミックス コーパス、データ生成とモデル トレーニング用のコードを一般公開しています。

要約(オリジナル)

Current computational approaches for analysing or generating code-mixed sentences do not explicitly model ‘naturalness’ or ‘acceptability’ of code-mixed sentences, but rely on training corpora to reflect distribution of acceptable code-mixed sentences. Modelling human judgement for the acceptability of code-mixed text can help in distinguishing natural code-mixed text and enable quality-controlled generation of code-mixed text. To this end, we construct Cline – a dataset containing human acceptability judgements for English-Hindi (en-hi) code-mixed text. Cline is the largest of its kind with 16,642 sentences, consisting of samples sourced from two sources: synthetically generated code-mixed text and samples collected from online social media. Our analysis establishes that popular code-mixing metrics such as CMI, Number of Switch Points, Burstines, which are used to filter/curate/compare code-mixed corpora have low correlation with human acceptability judgements, underlining the necessity of our dataset. Experiments using Cline demonstrate that simple Multilayer Perceptron (MLP) models trained solely on code-mixing metrics are outperformed by fine-tuned pre-trained Multilingual Large Language Models (MLLMs). Specifically, XLM-Roberta and Bernice outperform IndicBERT across different configurations in challenging data settings. Comparison with ChatGPT’s zero and fewshot capabilities shows that MLLMs fine-tuned on larger data outperform ChatGPT, providing scope for improvement in code-mixed tasks. Zero-shot transfer from English-Hindi to English-Telugu acceptability judgments using our model checkpoints proves superior to random baselines, enabling application to other code-mixed language pairs and providing further avenues of research. We publicly release our human-annotated dataset, trained checkpoints, code-mix corpus, and code for data generation and model training.

arxiv情報

著者 Prashant Kodali,Anmol Goel,Likhith Asapu,Vamshi Krishna Bonagiri,Anirudh Govil,Monojit Choudhury,Manish Shrivastava,Ponnurangam Kumaraguru
発行日 2024-05-09 06:40:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク