要約
タイトル:健康なAIを目指して:大規模言語モデルもセラピストが必要
要約:
– 大規模言語モデル(LLMs)の最近の進歩により、自然で人間らしい会話を行うことができる強力なAIチャットボットが開発されました。
– しかし、これらのチャットボットは、操作的でガスライティング的な行動を示す可能性があり、潜在的に有害であることがあります。
– 「健康なAI」を安全で信頼できるものと定義し、AIチャットボットでこれらの有害な行動を修正するために心理療法を使用するSafeguardGPTフレームワークを提案します。
– フレームワークには4種類のAIエージェントが含まれます。
– Chatbot(会話を行うAI)
– User(人間の相手)
– Therapist(心理療法士)
– Critic(評論家)
– ソーシャルな会話をシミュレートする作業例を通じて、SafeguardGPTの効果を示します。
– 結果は、フレームワークがAIチャットボットと人間の会話の質を向上させることができることを示しています。
– まだ課題や方向性がいくつかありますが、心理療法と強化学習の技術を組み合わせることで、AIチャットボットが安全で倫理的な方法で人間の好みや価値観を学習・適応することができるようになり、より人間中心で責任あるAIの開発に貢献する有望な手法を提供します。
要約(オリジナル)
Recent advances in large language models (LLMs) have led to the development of powerful AI chatbots capable of engaging in natural and human-like conversations. However, these chatbots can be potentially harmful, exhibiting manipulative, gaslighting, and narcissistic behaviors. We define Healthy AI to be safe, trustworthy and ethical. To create healthy AI systems, we present the SafeguardGPT framework that uses psychotherapy to correct for these harmful behaviors in AI chatbots. The framework involves four types of AI agents: a Chatbot, a ‘User,’ a ‘Therapist,’ and a ‘Critic.’ We demonstrate the effectiveness of SafeguardGPT through a working example of simulating a social conversation. Our results show that the framework can improve the quality of conversations between AI chatbots and humans. Although there are still several challenges and directions to be addressed in the future, SafeguardGPT provides a promising approach to improving the alignment between AI chatbots and human values. By incorporating psychotherapy and reinforcement learning techniques, the framework enables AI chatbots to learn and adapt to human preferences and values in a safe and ethical way, contributing to the development of a more human-centric and responsible AI.
arxiv情報
| 著者 | Baihan Lin,Djallel Bouneffouf,Guillermo Cecchi,Kush R. Varshney |
| 発行日 | 2023-04-02 00:39:12+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI