要約
大規模な言語モデル(LLM)は、複数の言語での理解と応答など、より広範な機能を獲得しています。
彼らは違法な質問に答えるのを防ぐために安全訓練を受けていますが、トレーニングデータと人間の評価リソースの不均衡により、これらのモデルは低資源言語(LRL)での攻撃を受けやすくなります。
このペーパーでは、一般的に使用されるLLMの多言語の脆弱性を自動的に評価するフレームワークを提案します。
フレームワークを使用して、さまざまなレベルのリソースの可用性を表す8つの言語で6つのLLMを評価しました。
2つの言語での人間の評価を通じて自動化されたフレームワークによって生成された評価を検証し、フレームワークの結果がほとんどの場合、人間の判断と一致することを示しました。
私たちの調査結果は、LRLの脆弱性を明らかにしています。
ただし、これらはモデルのパフォーマンスの低下に起因することが多く、結果として矛盾する反応をもたらすため、最小限のリスクをもたらす可能性があります。
要約(オリジナル)
Large Language Models (LLMs) are acquiring a wider range of capabilities, including understanding and responding in multiple languages. While they undergo safety training to prevent them from answering illegal questions, imbalances in training data and human evaluation resources can make these models more susceptible to attacks in low-resource languages (LRL). This paper proposes a framework to automatically assess the multilingual vulnerabilities of commonly used LLMs. Using our framework, we evaluated six LLMs across eight languages representing varying levels of resource availability. We validated the assessments generated by our automated framework through human evaluation in two languages, demonstrating that the framework’s results align with human judgments in most cases. Our findings reveal vulnerabilities in LRL; however, these may pose minimal risk as they often stem from the model’s poor performance, resulting in incoherent responses.
arxiv情報
著者 | Likai Tang,Niruth Bogahawatta,Yasod Ginige,Jiarui Xu,Shixuan Sun,Surangika Ranathunga,Suranga Seneviratne |
発行日 | 2025-03-17 11:39:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google