Alignment for Honesty

要約

最近の研究では、人間の意図に従って大規模言語モデル (LLM) の有用性と無害性を強化するための調整技術の適用が大幅に進歩しました。
このホワイトペーパーでは、LLM が知識が不足している場合は質問への回答を積極的に拒否しながらも、過度に保守的になることがないように、誠実さを保つための調整の重要性を主張します。
ただし、誠実さのための調整の極めて重要な側面には、LLM の知識の限界を見極めることが含まれますが、これは決して単純なものではありません。
この課題には、指標の開発、ベンチマークの作成、トレーニング方法論の観点から包括的なソリューションが必要です。
本稿では、まず正確な問題定義を確立し、論語にヒントを得た「誠実さ」を定義することで、これらの課題に対処します。
これは、調整後の進行状況を定量化することで LLM の誠実さを効果的に測定する指標を開発するための基礎として機能します。
さらに、他のタスクのパフォーマンスを犠牲にすることなく誠実さを強調するいくつかの効率的な微調整テクニックによってさらにインスタンス化された柔軟なトレーニング フレームワークを導入します。
私たちの広範な実験により、私たちが提案した指標が示すように、これらの調整されたモデルは誠実さが顕著に向上していることが明らかになりました。
私たちは、将来の研究を促進するための豊富なリソースを https://github.com/GAIR-NLP/alignment-for-honesty でオープンソースしています。これには、正直さ調整モデル、正直さ調整のためのトレーニングおよび評価データセット、概念用語集などが含まれます。
関連するすべてのソースコードとして。

要約(オリジナル)

Recent research has made significant strides in applying alignment techniques to enhance the helpfulness and harmlessness of large language models (LLMs) in accordance with human intentions. In this paper, we argue for the importance of alignment for honesty, ensuring that LLMs proactively refuse to answer questions when they lack knowledge, while still not being overly conservative. However, a pivotal aspect of alignment for honesty involves discerning the limits of an LLM’s knowledge, which is far from straightforward. This challenge demands comprehensive solutions in terms of metric development, benchmark creation, and training methodologies. In this paper, we address these challenges by first establishing a precise problem definition and defining “honesty” inspired by the Analects of Confucius. This serves as a cornerstone for developing metrics that effectively measure an LLM’s honesty by quantifying its progress post-alignment. Furthermore, we introduce a flexible training framework which is further instantiated by several efficient fine-tuning techniques that emphasize honesty without sacrificing performance on other tasks. Our extensive experiments reveal that these aligned models show a marked increase in honesty, as indicated by our proposed metrics. We open-source a wealth of resources to facilitate future research at https://github.com/GAIR-NLP/alignment-for-honesty, including honesty-aligned models, training and evaluation datasets for honesty alignment, concept glossary, as well as all relevant source code.

arxiv情報

著者 Yuqing Yang,Ethan Chern,Xipeng Qiu,Graham Neubig,Pengfei Liu
発行日 2023-12-12 06:10:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク