要約
大規模な言語モデルは注目を集めていますが、多くのサービス開発者は、実際の制約のためにまだ埋め込みベースのモデルに依存しています。
そのような場合、微調整データの品質はパフォーマンスに直接影響し、英語のデータセットは英語以外のモデルをトレーニングするためのシードデータとしてよく使用されます。
この研究では、言語モデルとタスクヘッダーの間のインターフェイスでターゲット言語のベクトルとターゲットのベクトルを整理することにより、ターゲット言語処理を強化するLangalignを提案します。
韓国語、日本、中国語での実験は、3つの言語すべてでランガリグムがパフォーマンスを大幅に向上させることを示しています。
さらに、Langalignを逆に適用して、ターゲット言語データを英語ベースのモデルが処理できる形式に変換できることを示します。
要約(オリジナル)
While Large Language Models have gained attention, many service developers still rely on embedding-based models due to practical constraints. In such cases, the quality of fine-tuning data directly impacts performance, and English datasets are often used as seed data for training non-English models. In this study, we propose LANGALIGN, which enhances target language processing by aligning English embedding vectors with those of the target language at the interface between the language model and the task header. Experiments on Korean, Japanese, and Chinese demonstrate that LANGALIGN significantly improves performance across all three languages. Additionally, we show that LANGALIGN can be applied in reverse to convert target language data into a format that an English-based model can process.
arxiv情報
著者 | Jong Myoung Kim,Young-Jun Lee,Ho-Jin Choi,Sangkeun Jung |
発行日 | 2025-03-24 12:02:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google