The Best of Both Worlds: Toward an Honest and Helpful Large Language Model

要約

大規模言語モデル (LLM) は、その卓越した生成機能により、さまざまな業界で目覚ましい成功を収めています。
ただし、実際に安全かつ効果的に展開するには、誠実さと有用性を確保することが重要です。
この文書では、LLM の誠実さを保ちながら、LLM の有用性を優先することができるか? という質問に対処します。
まず、LLM の誠実さを保証することを目的とした徹底的な原則を確立します。
さらに、HoneSet と呼ばれる新しいデータセットを導入します。これは、LLM の誠実さを維持する能力を評価するために細心の注意を払って作成された 6 つのカテゴリにわたる 930 のクエリで構成されます。
続いて、LLM の誠実さと有用性を強化するための 2 つのアプローチ、つまりトレーニング不要の強化と微調整ベースの改善を紹介します。
好奇心主導のプロンプトに基づいたトレーニング不要のアプローチにより、LLM はクエリに関する内部の混乱と不確実性を明確に表現できるようになり、応答が最適化されます。
逆に、微調整ベースの方法では、カリキュラム学習にヒントを得た 2 段階のプロセスが採用されています。最初に LLM に正直な反応と不誠実な反応を区別するように指示し、次に有用性を高めるためにトレーニングを改良します。
9 つの著名な LLM で実施された実験では、提案された機能強化の実装を通じて、すべてのモデルにわたって誠実さが大幅に向上することが実証されました。
特に注目に値するのは、H$^{2}$ (正直で役立つ) 評価によって測定された、Llama3-8b で観察された 65.3% の向上と、Mistral-7b での顕著な 124.7% の向上です。
私たちは、私たちの取り組みが、現実世界のアプリケーション向けに、より信頼できる LLM を開発する道を切り開くことができると信じています。

要約(オリジナル)

Large Language Models (LLMs) have achieved remarkable success across various industries due to their exceptional generative capabilities. However, for safe and effective real-world deployments, ensuring honesty and helpfulness is critical. This paper addresses the question: Can we prioritize the helpfulness of LLMs while preserving their honesty? To begin with, we establish exhaustive principles aimed at guaranteeing the honesty of LLM. Additionally, we introduce a novel dataset, referred to as HoneSet, comprising 930 queries spanning six categories meticulously crafted to assess an LLM’s capacity for maintaining honesty. Subsequently, we present two approaches to augmenting honesty and helpfulness in LLMs: a training-free enhancement and a fine-tuning-based improvement. The training-free approach, which is based on curiosity-driven prompting, empowers LLMs to articulate internal confusion and uncertainty regarding queries, thereby optimizing their responses. Conversely, the fine-tuning-based method employs a two-stage process inspired by curriculum learning: initially instructing LLMs to discern between honest and dishonest responses, then refining their training to enhance helpfulness. Experiments conducted on nine prominent LLMs demonstrate a significant improvement in alignment with honesty across all models through the implementation of our proposed enhancements. Particularly noteworthy is the 65.3% enhancement observed in Llama3-8b and the remarkable 124.7% improvement in Mistral-7b, as measured by the H$^{2}$ (honest and helpful) assessment. We believe that our work can pave the way for developing more trustworthy LLMs for real-world applications.

arxiv情報

著者 Chujie Gao,Qihui Zhang,Dongping Chen,Yue Huang,Siyuan Wu,Zhengyan Fu,Yao Wan,Xiangliang Zhang,Lichao Sun
発行日 2024-08-23 03:39:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク