要約
多言語 LLM は、優れたベンチマーク パフォーマンスを達成していますが、現代の LLM ファミリ全体において、非ラテン文字言語では依然としてパフォーマンスを下回っていることがわかりました。
この不一致は、LLM が正書法スクリプトで事前トレーニングされているという事実から生じます。正書法スクリプトはラテン文字が大半を占めており、非ラテン文字との共有音韻論がわかりにくくなっています。
私たちは、スクリプトに依存しない表現を誘導するための補完的な信号として音素転写を活用することを提案します。
私たちの研究は、音素信号を統合すると、非ラテン語とラテン語の両方のパフォーマンスが向上し、特に 2 つの言語間のパフォーマンスのギャップを埋めるのに大きな効果があることを示しています。
詳細な実験を通じて、音素文字と正書文字が文脈内学習 (ICL) の異なる例を取得することを示します。
これは、私たちが提案する混合 ICL 取得戦略の動機付けとなり、さらなる集約により、ランダム化された ICL 取得と比較して、ラテン文字言語 (最大 12.6%) と非ラテン文字言語 (最大 15.1%) の両方でパフォーマンスが大幅に向上します。
要約(オリジナル)
Multilingual LLMs have achieved remarkable benchmark performance, but we find they continue to underperform on non-Latin script languages across contemporary LLM families. This discrepancy arises from the fact that LLMs are pretrained with orthographic scripts, which are dominated by Latin characters that obscure their shared phonology with non-Latin scripts. We propose leveraging phonemic transcriptions as complementary signals to induce script-invariant representations. Our study demonstrates that integrating phonemic signals improves performance across both non-Latin and Latin languages, with a particularly significant impact on closing the performance gap between the two. Through detailed experiments, we show that phonemic and orthographic scripts retrieve distinct examples for in-context learning (ICL). This motivates our proposed Mixed-ICL retrieval strategy, where further aggregation leads to our significant performance improvements for both Latin script languages (up to 12.6%) and non-Latin script languages (up to 15.1%) compared to randomized ICL retrieval.
arxiv情報
著者 | Hoang Nguyen,Khyati Mahajan,Vikas Yadav,Philip S. Yu,Masoud Hashemi,Rishabh Maheshwary |
発行日 | 2024-11-04 18:59:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google