要約
さまざまな言語のテキストをトレーニングすることにより、大規模言語モデル (LLM) は通常、多言語サポートを備え、さまざまな言語で記述されたタスクを解決する際に優れた能力を発揮します。
ただし、LLM は言語間でトレーニング データが不均一に分布しているため、言語差別を示す可能性があります。
つまり、LLM は、同じタスクに直面しても、異なる言語で表現されている場合、応答の一貫性を保つのが困難です。
この研究では、まず安全性と品質という 2 つの側面から、さまざまな言語でのクエリに応答する LLM の出力の一貫性を調査します。
この分析は、4 つの LLM (Llama2-13b、Gemma-7b、GPT-3.5-turbo、および Gemini-pro) に基づく 2 つのデータセット (AdvBench および NQ) を使用して実行します。
その結果、LLM は、ベンガル語、グルジア語、ネパール語、マイティリ語でのクエリ (平均で 27.7% の有害なクエリで脱獄に成功したのはわずか 1.04% のみ) と比較して、英語、フランス語、ロシア語、スペイン語でのクエリでより強力な人間の調整能力を示したことがわかりました。
有害なクエリは平均して脱獄に成功します)。
さらに、英語、デンマーク語、チェコ語、スロベニア語でのクエリの場合、LLM は他の言語に比べて高品質の応答 (平均 0.1494 $F_1$ スコア) を生成する傾向があります。
これらの発見に基づいて、LLM における言語差別を軽減するために、類似性に基づく投票である LDFighter を提案します。
LDFighter は、さまざまな言語話者に対して一貫したサービスを保証します。
私たちは LDFighter を無害なクエリと有害なクエリの両方で評価します。
その結果、LDFighter はジェイルブレイクの成功率を大幅に低下させるだけでなく、平均して応答品質も向上し、その有効性を実証しました。
要約(オリジナル)
By training on text in various languages, large language models (LLMs) typically possess multilingual support and demonstrate remarkable capabilities in solving tasks described in different languages. However, LLMs can exhibit linguistic discrimination due to the uneven distribution of training data across languages. That is, LLMs are hard to keep the consistency of responses when faced with the same task but depicted in different languages. In this study, we first explore the consistency in the LLMs’ outputs responding to queries in various languages from two aspects: safety and quality. We conduct this analysis with two datasets (AdvBench and NQ) based on four LLMs (Llama2-13b, Gemma-7b, GPT-3.5-turbo and Gemini-pro). The results show that LLMs exhibit stronger human alignment capabilities with queries in English, French, Russian, and Spanish (only 1.04\% of harmful queries successfully jailbreak on average) compared to queries in Bengali, Georgian, Nepali and Maithili (27.7\% of harmful queries jailbreak successfully on average). Moreover, for queries in English, Danish, Czech and Slovenian, LLMs tend to produce responses with a higher quality (with 0.1494 $F_1$ score on average) compared to the other languages. Upon these findings, we propose LDFighter, a similarity-based voting, to mitigate the linguistic discrimination in LLMs. LDFighter ensures consistent service for different language speakers. We evaluate LDFighter with both benign queries and harmful queries. The results show that LDFighter not only significantly reduces the jailbreak success rate but also improve the response quality on average, demonstrating its effectiveness.
arxiv情報
著者 | Guoliang Dong,Haoyu Wang,Jun Sun,Xinyu Wang |
発行日 | 2024-04-29 09:22:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google