A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers

要約

大規模言語モデル (LLM) の急速な開発は、自然言語処理における顕著な多言語機能を実証しており、学界と産業界の両方で世界的な注目を集めています。
潜在的な差別を軽減し、多様な言語ユーザー グループに対する全体的な使いやすさとアクセシビリティを向上させるためには、言語公平テクノロジーの開発が重要です。
LLM の画期的な進歩にもかかわらず、多言語シナリオの調査は依然として不十分であり、最近のアプローチ、開発、制限、および潜在的な解決策を要約するための包括的な調査が望まれています。
この目的を達成するために、多言語シナリオにおける LLM の利用に関する複数の観点からの調査を提供します。
まず、事前トレーニング済み言語モデルに関する以前の研究と現在の研究の間の変遷を再考します。
次に、トレーニングと推論の方法、モデルのセキュリティ、言語文化を伴うマルチドメイン、データセットの使用など、LLM の多言語対応に関するいくつかの視点を紹介します。
また、これらの側面で生じる主要な課題と、考えられる解決策についても説明します。
さらに、多言語対応で LLM をさらに強化することを目的とした将来の研究の方向性も強調します。
この調査は、研究コミュニティが多言語の問題に対処できるよう支援し、LLM に基づく多言語自然言語処理の中核概念、主要な技術、最新の開発についての包括的な理解を提供することを目的としています。

要約(オリジナル)

The rapid development of Large Language Models (LLMs) demonstrates remarkable multilingual capabilities in natural language processing, attracting global attention in both academia and industry. To mitigate potential discrimination and enhance the overall usability and accessibility for diverse language user groups, it is important for the development of language-fair technology. Despite the breakthroughs of LLMs, the investigation into the multilingual scenario remains insufficient, where a comprehensive survey to summarize recent approaches, developments, limitations, and potential solutions is desirable. To this end, we provide a survey with multiple perspectives on the utilization of LLMs in the multilingual scenario. We first rethink the transitions between previous and current research on pre-trained language models. Then we introduce several perspectives on the multilingualism of LLMs, including training and inference methods, model security, multi-domain with language culture, and usage of datasets. We also discuss the major challenges that arise in these aspects, along with possible solutions. Besides, we highlight future research directions that aim at further enhancing LLMs with multilingualism. The survey aims to help the research community address multilingual problems and provide a comprehensive understanding of the core concepts, key techniques, and latest developments in multilingual natural language processing based on LLMs.

arxiv情報

著者 Kaiyu Huang,Fengran Mo,Hongliang Li,You Li,Yuanchi Zhang,Weijian Yi,Yulong Mao,Jinchen Liu,Yuzhuang Xu,Jinan Xu,Jian-Yun Nie,Yang Liu
発行日 2024-05-17 17:47:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク