Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models’ Alignment

要約

人間の意図に従ってモデルを動作させることを意味する整合性の確保 [1,2] は、現実世界のアプリケーションに大規模言語モデル (LLM) を展開する前に重要なタスクとなっています。
たとえば、OpenAI は、GPT-4 のリリース前に反復的な調整に 6 か月を費やしました [3]。
しかし、実務者が直面する大きな課題は、LLM の成果が社会規範、価値観、規制に適合しているかどうかを評価するための明確なガイダンスが欠如していることです。
この障害により、LLM の体系的な反復と展開が妨げられます。
この問題に対処するために、このペーパーでは、LLM の信頼性を評価する際に考慮することが重要な主要な側面についての包括的な調査を示します。
この調査では、信頼性、安全性、公平性、悪用への耐性、説明可能性と推論、社会規範の順守、堅牢性という、LLM の信頼性の 7 つの主要カテゴリを対象としています。
各主要カテゴリはさらにいくつかのサブカテゴリに分割され、合計 29 のサブカテゴリになります。
さらに、8 つのサブカテゴリのサブセットがさらなる調査のために選択され、対応する測定研究が設計され、いくつかの広く使用されている LLM に対して実行されます。
測定結果は、一般に、より調整されたモデルほど、全体的な信頼性の点でパフォーマンスが向上する傾向があることを示しています。
ただし、調整の有効性は、考慮されるさまざまな信頼性カテゴリによって異なります。
これは、LLM アライメントに関して、より詳細な分析、テストを実施し、継続的に改善することの重要性を強調しています。
このホワイトペーパーは、LLM の信頼性のこれらの重要な側面に光を当てることにより、この分野の実務者に貴重な洞察と指針を提供することを目的としています。
これらの懸念を理解し、対処することは、さまざまなアプリケーションで信頼性が高く倫理的に健全な LLM の導入を実現するために重要です。

要約(オリジナル)

Ensuring alignment, which refers to making models behave in accordance with human intentions [1,2], has become a critical task before deploying large language models (LLMs) in real-world applications. For instance, OpenAI devoted six months to iteratively aligning GPT-4 before its release [3]. However, a major challenge faced by practitioners is the lack of clear guidance on evaluating whether LLM outputs align with social norms, values, and regulations. This obstacle hinders systematic iteration and deployment of LLMs. To address this issue, this paper presents a comprehensive survey of key dimensions that are crucial to consider when assessing LLM trustworthiness. The survey covers seven major categories of LLM trustworthiness: reliability, safety, fairness, resistance to misuse, explainability and reasoning, adherence to social norms, and robustness. Each major category is further divided into several sub-categories, resulting in a total of 29 sub-categories. Additionally, a subset of 8 sub-categories is selected for further investigation, where corresponding measurement studies are designed and conducted on several widely-used LLMs. The measurement results indicate that, in general, more aligned models tend to perform better in terms of overall trustworthiness. However, the effectiveness of alignment varies across the different trustworthiness categories considered. This highlights the importance of conducting more fine-grained analyses, testing, and making continuous improvements on LLM alignment. By shedding light on these key dimensions of LLM trustworthiness, this paper aims to provide valuable insights and guidance to practitioners in the field. Understanding and addressing these concerns will be crucial in achieving reliable and ethically sound deployment of LLMs in various applications.

arxiv情報

著者 Yang Liu,Yuanshun Yao,Jean-Francois Ton,Xiaoying Zhang,Ruocheng Guo Hao Cheng,Yegor Klochkov,Muhammad Faaiz Taufiq,Hang Li
発行日 2023-08-10 06:43:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク