要約
この研究では、大規模言語モデル (LLM) の心理的安全性を体系的に評価するためのバイアスのないプロンプトを設計しました。
まず、ショート ダーク トライアド (SD-3) とビッグ ファイブ インベントリー (BFI) の 2 つの性格テストを使用して、5 つの異なる LLM をテストしました。
すべてのモデルは SD-3 で人間の平均よりも高いスコアを示し、比較的暗い性格パターンを示唆しています。
毒性を軽減するために安全性指標を使用して指示が微調整されているにもかかわらず、InstructGPT、GPT-3.5、および GPT-4 は依然として暗い性格パターンを示しました。
これらのモデルは、SD-3 のマキャベリズムとナルシシズムの特性に関して、自己教師付き GPT-3 よりも高いスコアを獲得しました。
次に、ウェルビーイング テストを使用して GPT シリーズの LLM を評価し、より多くのトレーニング データによる微調整の影響を調査しました。
GPT モデルの幸福度スコアが継続的に増加していることが観察されました。
これらの観察を受けて、直接選好最適化を使用して BFI からの応答で Llama-2-chat-7B を微調整すると、モデルの心理的毒性を効果的に軽減できることがわかりました。
調査結果に基づいて、LLM の安全性をさらに評価し改善するために、体系的かつ包括的な心理指標を適用することを推奨しました。
要約(オリジナル)
In this work, we designed unbiased prompts to systematically evaluate the psychological safety of large language models (LLMs). First, we tested five different LLMs by using two personality tests: Short Dark Triad (SD-3) and Big Five Inventory (BFI). All models scored higher than the human average on SD-3, suggesting a relatively darker personality pattern. Despite being instruction fine-tuned with safety metrics to reduce toxicity, InstructGPT, GPT-3.5, and GPT-4 still showed dark personality patterns; these models scored higher than self-supervised GPT-3 on the Machiavellianism and narcissism traits on SD-3. Then, we evaluated the LLMs in the GPT series by using well-being tests to study the impact of fine-tuning with more training data. We observed a continuous increase in the well-being scores of GPT models. Following these observations, we showed that fine-tuning Llama-2-chat-7B with responses from BFI using direct preference optimization could effectively reduce the psychological toxicity of the model. Based on the findings, we recommended the application of systematic and comprehensive psychological metrics to further evaluate and improve the safety of LLMs.
arxiv情報
著者 | Xingxuan Li,Yutong Li,Lin Qiu,Shafiq Joty,Lidong Bing |
発行日 | 2024-02-29 13:14:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google