要約
大規模言語モデル (LLM) をさまざまなアプリケーションに展開するには、生成されたコンテンツのコンテキスト上の整合性を損なうことなく安全性を保証する必要があります。
安全性に特化した微調整や敵対的テストなどの従来のアプローチでは、文脈上の意味を犠牲にして安全な出力が得られることがよくあります。
その結果、さまざまな人口統計における過小評価や否定的な描写など、偏見や有害性の微妙な側面に対処する能力が低下する可能性があります。
これらの課題に対処するために、安全介入のために特別に設計されたカスタム データセットに基づいて注意深く微調整された LLM フレームワークである MBIAS を導入します。
MBIAS は、主要な情報を維持しながら、LLM 出力のバイアスと有害な要素を大幅に削減するように設計されています。
この研究では、人間の監督下でのアノテーターとして、また生成されたコンテンツの評価者として、LLM をさらに使用する方法についても詳しく説明します。
実証分析により、MBIAS は標準評価で 30% 以上、多様な人口統計テストで 90% 以上のバイアスと毒性の低減を達成することが明らかになり、我々のアプローチの堅牢性が強調されています。
データセットと微調整されたモデルを研究コミュニティがさらなる調査のために利用できるようにし、再現性を確保します。
このプロジェクトのコードは、https://github.com/shainarazavi/MBIAS/tree/main からアクセスできます。
警告: この文書には、攻撃的または不快感を与える可能性のある例が含まれています。
要約(オリジナル)
The deployment of Large Language Models (LLMs) in diverse applications necessitates an assurance of safety without compromising the contextual integrity of the generated content. Traditional approaches, including safety-specific fine-tuning or adversarial testing, often yield safe outputs at the expense of contextual meaning. This can result in a diminished capacity to handle nuanced aspects of bias and toxicity, such as underrepresentation or negative portrayals across various demographics. To address these challenges, we introduce MBIAS, an LLM framework carefully instruction fine-tuned on a custom dataset designed specifically for safety interventions. MBIAS is designed to significantly reduce biases and toxic elements in LLM outputs while preserving the main information. This work also details our further use of LLMs: as annotator under human supervision and as evaluator of generated content. Empirical analysis reveals that MBIAS achieves a reduction in bias and toxicity by over 30\% in standard evaluations, and by more than 90\% in diverse demographic tests, highlighting the robustness of our approach. We make the dataset and the fine-tuned model available to the research community for further investigation and ensure reproducibility. The code for this project can be accessed here https://github.com/shainarazavi/MBIAS/tree/main. Warning: This paper contains examples that may be offensive or upsetting.
arxiv情報
著者 | Shaina Raza,Ananya Raval,Veronica Chatrath |
発行日 | 2024-06-28 16:35:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google