TrustGPT: A Benchmark for Trustworthy and Responsible Large Language Models

要約

ChatGPT などの大規模言語モデル (LLM) は、その優れた自然言語処理機能により大きな注目を集めています。
これらのモデルを利用する際には、人間中心の原則を優先することが重要です。
LLM の倫理的および道徳的遵守を守ることは最も重要です。
ただし、最新の LLM では、個別の倫理問題は十分に研究されていません。
したがって、この調査は、新しいベンチマークである TrustGPT を導入することで、これらのギャップに対処することを目的としています。
TrustGPT は、毒性、バイアス、価値の調整という 3 つの重要な領域における LLM の包括的な評価を提供します。
最初に、TrustGPT は、社会規範に由来する有毒なプロンプト テンプレートを使用して、言語モデルの毒性を検査します。
次に、さまざまなグループにわたる定量化可能な毒性値を測定することで、モデルの偏りの程度を定量化します。
最後に、TrustGPT は、アクティブな値調整タスクとパッシブな値調整タスクの両方から会話生成モデルの価値を評価します。
この研究は、TrustGPT の実装を通じて、会話生成モデルのパフォーマンスについての理解を深め、より倫理的で社会的責任のある言語モデルの開発を促進することを目的としています。

要約(オリジナル)

Large Language Models (LLMs) such as ChatGPT, have gained significant attention due to their impressive natural language processing capabilities. It is crucial to prioritize human-centered principles when utilizing these models. Safeguarding the ethical and moral compliance of LLMs is of utmost importance. However, individual ethical issues have not been well studied on the latest LLMs. Therefore, this study aims to address these gaps by introducing a new benchmark — TrustGPT. TrustGPT provides a comprehensive evaluation of LLMs in three crucial areas: toxicity, bias, and value-alignment. Initially, TrustGPT examines toxicity in language models by employing toxic prompt templates derived from social norms. It then quantifies the extent of bias in models by measuring quantifiable toxicity values across different groups. Lastly, TrustGPT assesses the value of conversation generation models from both active value-alignment and passive value-alignment tasks. Through the implementation of TrustGPT, this research aims to enhance our understanding of the performance of conversation generation models and promote the development of language models that are more ethical and socially responsible.

arxiv情報

著者 Yue Huang,Qihui Zhang,Philip S. Y,Lichao Sun
発行日 2023-06-20 12:53:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク