要約
アラビア語弁証法 (DA) の品種は、言語テクノロジ、特に大規模言語モデル (LLM) によって十分なサービスが提供されていません。
この傾向は、既存の社会的不平等を悪化させ、言語モデリングのアプリケーションを制限する恐れがありますが、研究コミュニティには、DA で運用可能な LLM パフォーマンス測定が不足しています。
DA のモデリングにおいて、LLM 忠実度、理解度、品質、言語異常を総合的に評価する手法を提案します。
これら 4 つの側面にわたって 8 種類の DA の 9 つの LLM を評価し、ベスト プラクティスの推奨事項を提供します。
私たちの評価は、LLM が理解しているほど DA を生成しないことを示唆していますが、生成した場合に品質が低下することを示唆するものではありません。
さらなる分析により、現在のポストトレーニングが DA 機能を低下させる可能性があること、ショット数の少ないサンプルでこの欠点やその他の LLM の欠点を克服できること、それ以外の場合は入力テキストの測定可能な特徴が LLM DA のパフォーマンスとよく相関しないことが示唆されています。
要約(オリジナル)
Dialectal Arabic (DA) varieties are under-served by language technologies, particularly large language models (LLMs). This trend threatens to exacerbate existing social inequalities and limits language modeling applications, yet the research community lacks operationalized LLM performance measurements in DA. We present a method that comprehensively evaluates LLM fidelity, understanding, quality, and diglossia in modeling DA. We evaluate nine LLMs in eight DA varieties across these four dimensions and provide best practice recommendations. Our evaluation suggests that LLMs do not produce DA as well as they understand it, but does not suggest deterioration in quality when they do. Further analysis suggests that current post-training can degrade DA capabilities, that few-shot examples can overcome this and other LLM deficiencies, and that otherwise no measurable features of input text correlate well with LLM DA performance.
arxiv情報
著者 | Nathaniel R. Robinson,Shahd Abdelmoneim,Kelly Marchisio,Sebastian Ruder |
発行日 | 2024-12-05 14:33:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google