Risk Taxonomy, Mitigation, and Assessment Benchmarks of Large Language Model Systems

要約

大規模言語モデル (LLM) は、多様な自然言語処理タスクを解決する強力な機能を備えています。
しかし、LLM システムの安全性とセキュリティの問題は、その広範な適用に対する大きな障害となっています。
多くの研究が LLM システムのリスクを広範囲に調査し、対応する緩和戦略を開発しました。
OpenAI、Google、Meta、Anthropic などの最先端の企業も、責任ある LLM に関して多大な努力を払ってきました。
したがって、既存の研究を整理し、コミュニティのための包括的な分類法を確立する必要性が高まっています。
このペーパーでは、プロンプトを受信するための入力モジュール、広範なコーパスでトレーニングされた言語モデル、開発と展開のためのツールチェーン モジュール、LLM で生成されたコンテンツをエクスポートするための出力モジュールを含む、LLM システムの 4 つの重要なモジュールについて詳しく説明します。
これに基づいて、LLM システムの各モジュールに関連する潜在的なリスクを系統的に分析し、対応する軽減戦略を議論する包括的な分類法を提案します。
さらに、LLM システムのリスク評価を容易にすることを目的として、一般的なベンチマークをレビューします。
この文書が、LLM 参加者が責任ある LLM システムを構築するための体系的な視点を受け入れるのに役立つことを願っています。

要約(オリジナル)

Large language models (LLMs) have strong capabilities in solving diverse natural language processing tasks. However, the safety and security issues of LLM systems have become the major obstacle to their widespread application. Many studies have extensively investigated risks in LLM systems and developed the corresponding mitigation strategies. Leading-edge enterprises such as OpenAI, Google, Meta, and Anthropic have also made lots of efforts on responsible LLMs. Therefore, there is a growing need to organize the existing studies and establish comprehensive taxonomies for the community. In this paper, we delve into four essential modules of an LLM system, including an input module for receiving prompts, a language model trained on extensive corpora, a toolchain module for development and deployment, and an output module for exporting LLM-generated content. Based on this, we propose a comprehensive taxonomy, which systematically analyzes potential risks associated with each module of an LLM system and discusses the corresponding mitigation strategies. Furthermore, we review prevalent benchmarks, aiming to facilitate the risk assessment of LLM systems. We hope that this paper can help LLM participants embrace a systematic perspective to build their responsible LLM systems.

arxiv情報

著者 Tianyu Cui,Yanling Wang,Chuanpu Fu,Yong Xiao,Sijia Li,Xinhao Deng,Yunpeng Liu,Qinglin Zhang,Ziyi Qiu,Peiyang Li,Zhixing Tan,Junwu Xiong,Xinyu Kong,Zujie Wen,Ke Xu,Qi Li
発行日 2024-01-11 09:29:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク