要約
多言語データを使用して大規模言語モデル (LLM) を微調整すると、LLM の多言語機能を急速に強化できますが、主要な言語 (英語など) と非主要な言語の間でパフォーマンスのギャップが依然として存在します。これは、複数言語間でのトレーニング データの不均衡が原因です。
言語。
非主流言語のパフォーマンスをさらに強化するために、他の言語の内部前進プロセスを主要言語の内部前進プロセスに合わせて調整するシフトベースの対照フレームワークである ShifCon を提案します。
具体的には、非主要言語の表現を主要言語の部分空間にシフトし、モデル パラメーターにエンコードされた比較的豊富な情報にアクセスできるようにします。
エンリッチされた表現は、生成前に元の言語部分空間に戻されます。
さらに、表現をシフトするための最適なレイヤー領域を特定するために部分空間距離メトリックを導入し、多言語対比学習を使用してこの領域内での表現の位置合わせをさらに強化します。
実験では、ShifCon フレームワークが非主流言語、特に低リソース言語のパフォーマンスを大幅に向上させることが実証されています。
さらなる分析により、ShifCon の有効性を検証し、将来の研究を推進するための追加の洞察が得られます。
要約(オリジナル)
Although fine-tuning Large Language Models (LLMs) with multilingual data can rapidly enhance the multilingual capabilities of LLMs, they still exhibit a performance gap between the dominant language (e.g., English) and non-dominant ones due to the imbalance of training data across languages. To further enhance the performance of non-dominant languages, we propose ShifCon, a Shift-based Contrastive framework that aligns the internal forward process of other languages toward that of the dominant one. Specifically, it shifts the representations of non-dominant languages into the dominant language subspace, allowing them to access relatively rich information encoded in the model parameters. The enriched representations are then shifted back into their original language subspace before generation. Moreover, we introduce a subspace distance metric to pinpoint the optimal layer area for shifting representations and employ multilingual contrastive learning to further enhance the alignment of representations within this area. Experiments demonstrate that our ShifCon framework significantly enhances the performance of non-dominant languages, particularly for low-resource ones. Further analysis offers extra insights to verify the effectiveness of ShifCon and propel future research
arxiv情報
著者 | Hengyuan Zhang,Chenming Shang,Sizhe Wang,Dongdong Zhang,Renliang Sun,Yiyao Yu,Yujiu Yang,Furu Wei |
発行日 | 2024-11-06 11:49:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google