要約
大規模言語モデル (LLM) の時代では、世界中のユーザーにサービスを提供できる多言語大規模言語モデル (MLLM) を構築することが非常に重要です。
しかし、既存の研究では、MLLM の真実性に焦点を当てていることはほとんどありません。
一方、現代の多言語対応技術は、膨大な言語のバランスをとるのに苦労しており、さまざまな言語、特に英語と大きく異なる言語間での真実性の深刻なギャップがしばしば見られます。
私たちの研究では、多言語シナリオにおける真実性評価のベンチマークを構築し、言語間で事実を調整して MLLM の真実性を高める方法を模索しています。
さらに、多数の言語とさまざまなデータ型にわたるデータ割り当てを最適化するために、事実を認識した多言語選択的シナジー (FaMSS) を提案します。
実験結果は、私たちのアプローチが多言語表現の格差を効果的に削減し、LLM の多言語機能を強化できることを示しています。
要約(オリジナル)
In the era of large language models (LLMs), building multilingual large language models (MLLMs) that can serve users worldwide holds great significance. However, existing research seldom focuses on the truthfulness of MLLMs. Meanwhile, contemporary multilingual aligning technologies struggle to balance massive languages and often exhibit serious truthfulness gaps across different languages, especially those that differ greatly from English. In our work, we construct a benchmark for truthfulness evaluation in multilingual scenarios and explore the ways to align facts across languages to enhance the truthfulness of MLLMs. Furthermore, we propose Fact-aware Multilingual Selective Synergy (FaMSS) to optimize the data allocation across a large number of languages and different data types. Experimental results demonstrate that our approach can effectively reduce the multilingual representation disparity and enhance the multilingual capabilities of LLMs.
arxiv情報
著者 | Weihao Liu,Ning Wu,Wenbiao Ding,Shining Liang,Ming Gong,Dongmei Zhang |
発行日 | 2024-06-20 15:59:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google