TrustLLM: Trustworthiness in Large Language Models

要約

ChatGPT に代表される大規模言語モデル (LLM) は、その優れた自然言語処理能力により大きな注目を集めています。
それにもかかわらず、これらの LLM には、特に信頼性の領域で多くの課題があります。
したがって、LLM の信頼性を確保することが重要なトピックとして浮上しています。
このペーパーでは、LLM の信頼性に関する包括的な研究である TrustLLM について紹介します。これには、信頼性のさまざまな側面の原則、確立されたベンチマーク、主流 LLM の信頼性の評価と分析、未解決の課題と将来の方向性の議論が含まれます。
具体的には、まず、8 つの異なる次元にわたる信頼できる LLM のための一連の原則を提案します。
これらの原則に基づいて、真実性、安全性、公平性、堅牢性、プライバシー、機械倫理を含む 6 つの側面にわたるベンチマークをさらに確立します。
次に、30 を超えるデータセットから構成される TrustLLM の 16 の主流 LLM を評価した研究を紹介します。
私たちの調査結果は、まず、一般に信頼性と有用性(つまり、機能的有効性)が正の相関があることを示しています。
第 2 に、私たちの観察では、プロプライエタリな LLM は一般に、信頼性の点でほとんどのオープンソースの LLM より優れていることが明らかになり、広くアクセス可能なオープンソース LLM の潜在的なリスクについての懸念が生じています。
ただし、いくつかのオープンソース LLM はプロプライエタリなものに非常に近いです。
第三に、一部の LLM は信頼性を示すように過度に調整されている可能性があり、良性のプロンプトを誤って有害なものとして扱い、その結果応答しなくなることで実用性が損なわれる可能性があることに注意することが重要です。
最後に、モデル自体だけでなく、信頼性を支えるテクノロジーにおいても透明性を確保することの重要性を強調します。
使用されている特定の信頼できるテクノロジーを知ることは、その有効性を分析するために非常に重要です。

要約(オリジナル)

Large language models (LLMs), exemplified by ChatGPT, have gained considerable attention for their excellent natural language processing capabilities. Nonetheless, these LLMs present many challenges, particularly in the realm of trustworthiness. Therefore, ensuring the trustworthiness of LLMs emerges as an important topic. This paper introduces TrustLLM, a comprehensive study of trustworthiness in LLMs, including principles for different dimensions of trustworthiness, established benchmark, evaluation, and analysis of trustworthiness for mainstream LLMs, and discussion of open challenges and future directions. Specifically, we first propose a set of principles for trustworthy LLMs that span eight different dimensions. Based on these principles, we further establish a benchmark across six dimensions including truthfulness, safety, fairness, robustness, privacy, and machine ethics. We then present a study evaluating 16 mainstream LLMs in TrustLLM, consisting of over 30 datasets. Our findings firstly show that in general trustworthiness and utility (i.e., functional effectiveness) are positively related. Secondly, our observations reveal that proprietary LLMs generally outperform most open-source counterparts in terms of trustworthiness, raising concerns about the potential risks of widely accessible open-source LLMs. However, a few open-source LLMs come very close to proprietary ones. Thirdly, it is important to note that some LLMs may be overly calibrated towards exhibiting trustworthiness, to the extent that they compromise their utility by mistakenly treating benign prompts as harmful and consequently not responding. Finally, we emphasize the importance of ensuring transparency not only in the models themselves but also in the technologies that underpin trustworthiness. Knowing the specific trustworthy technologies that have been employed is crucial for analyzing their effectiveness.

arxiv情報

著者 Lichao Sun,Yue Huang,Haoran Wang,Siyuan Wu,Qihui Zhang,Yuan Li,Chujie Gao,Yixin Huang,Wenhan Lyu,Yixuan Zhang,Xiner Li,Zhengliang Liu,Yixin Liu,Yijue Wang,Zhikun Zhang,Bertie Vidgen,Bhavya Kailkhura,Caiming Xiong,Chaowei Xiao,Chunyuan Li,Eric Xing,Furong Huang,Hao Liu,Heng Ji,Hongyi Wang,Huan Zhang,Huaxiu Yao,Manolis Kellis,Marinka Zitnik,Meng Jiang,Mohit Bansal,James Zou,Jian Pei,Jian Liu,Jianfeng Gao,Jiawei Han,Jieyu Zhao,Jiliang Tang,Jindong Wang,Joaquin Vanschoren,John Mitchell,Kai Shu,Kaidi Xu,Kai-Wei Chang,Lifang He,Lifu Huang,Michael Backes,Neil Zhenqiang Gong,Philip S. Yu,Pin-Yu Chen,Quanquan Gu,Ran Xu,Rex Ying,Shuiwang Ji,Suman Jana,Tianlong Chen,Tianming Liu,Tianyi Zhou,William Wang,Xiang Li,Xiangliang Zhang,Xiao Wang,Xing Xie,Xun Chen,Xuyu Wang,Yan Liu,Yanfang Ye,Yinzhi Cao,Yong Chen,Yue Zhao
発行日 2024-03-18 02:49:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク