要約
最近の研究では、文脈に沿った高品質な用例を取得できる既製の検索ツールや微調整された検索ツールを活用することで、文脈に沿った英語学習が大幅に向上することが示されています。
ただし、これらの方法を他の言語、特に低リソース言語に適応させるには、利用可能なクロスリンガル検索ツールと注釈付きデータが不足しているため、課題が生じます。
このペーパーでは、注釈付きの英語データのみを使用して、言語を超えた文脈内学習の課題に取り組むために調整された方法である XAMPLER: 言語を超えた例検索を紹介します。
XAMPLER は、まずポジティブ/ネガティブ英語サンプルを使用してレトリバーをトレーニングします。サンプルは、コンテキスト内学習のための多言語大規模言語モデルの予測に基づいて構築されます。
次に、訓練された検索者を直接使用して、ターゲット言語の文脈内学習のための少数の例として英語の例を検索します。
176 言語を使用した SIB200 の大規模多言語テキスト分類ベンチマークの実験では、XAMPLER が言語間でのコンテキスト内学習のパフォーマンスを大幅に向上させることが実証されました。
私たちのコードは https://github.com/cisnlp/XAMPLER で入手できます。
要約(オリジナル)
Recent studies have shown that leveraging off-the-shelf or fine-tuned retrievers, capable of retrieving high-quality in-context examples, significantly improves in-context learning of English. However, adapting these methods to other languages, especially low-resource ones, presents challenges due to the scarcity of available cross-lingual retrievers and annotated data. In this paper, we introduce XAMPLER: Cross-Lingual Example Retrieval, a method tailored to tackle the challenge of cross-lingual in-context learning using only annotated English data. XAMPLER first trains a retriever with positive/negative English samples, which are constructed based on the predictions of the multilingual large language model for in-context learning. Then, the trained retriever is directly employed to retrieve English examples as few-shot examples for in-context learning of target languages. Experiments on the massively multilingual text classification benchmark of SIB200 with 176 languages demonstrate that XAMPLER substantially improves the in-context learning performance across languages. Our code is available at https://github.com/cisnlp/XAMPLER.
arxiv情報
著者 | Peiqin Lin,André F. T. Martins,Hinrich Schütze |
発行日 | 2024-05-08 15:13:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google