Adding guardrails to advanced chatbots

要約

生成 AI モデルはさらに強力になり続けています。
2022 年 11 月の ChatGPT の開始により、AI の新時代が到来しました。
ChatGPT や他の同様のチャットボットには、生徒の宿題の質問に答えることから、音楽やアートの作成に至るまで、幅広い機能があります。
さまざまな仕事で人間がチャットボットに取って代わられるのではないかという懸念がすでにあります。
チャットボットは広範囲のデータに基づいて構築されているため、チャットボットには人的エラーや人間の偏見が組み込まれていることがわかっています。
これらのバイアスは、異なる部分集団に対して重大な害や不公平を引き起こす可能性があります。
チャットボットの応答の長所と短所を理解するために、ChatGPT のさまざまな使用例を検討し、公正に回答される質問の種類とまだ改善が必要な質問の種類を判断するポジション ペーパーを提示します。
ChatGPT は、テストしたタスクにとって公正な検索エンジンであることがわかりました。
ただし、テキスト生成とコード生成の両方にバイアスがあります。
ChatGPT はプロンプトの変更に非常に敏感であり、小さな変更によって公平性のレベルが異なることがわかりました。
これは、これらのシステムの公平性を向上させるために、「修正」または緩和戦略を直ちに実行する必要があることを示唆しています。
私たちはチャットボットを改善するためのさまざまな戦略を提案し、また、さまざまな種類のバイアスのレベルを測定するためにモデルのパラメーターにアクセスできる公平な審査委員会を提唱し、差別が少なく、より正確な対応に向けた保護措置を推奨します。

要約(オリジナル)

Generative AI models continue to become more powerful. The launch of ChatGPT in November 2022 has ushered in a new era of AI. ChatGPT and other similar chatbots have a range of capabilities, from answering student homework questions to creating music and art. There are already concerns that humans may be replaced by chatbots for a variety of jobs. Because of the wide spectrum of data chatbots are built on, we know that they will have human errors and human biases built into them. These biases may cause significant harm and/or inequity toward different subpopulations. To understand the strengths and weakness of chatbot responses, we present a position paper that explores different use cases of ChatGPT to determine the types of questions that are answered fairly and the types that still need improvement. We find that ChatGPT is a fair search engine for the tasks we tested; however, it has biases on both text generation and code generation. We find that ChatGPT is very sensitive to changes in the prompt, where small changes lead to different levels of fairness. This suggests that we need to immediately implement ‘corrections’ or mitigation strategies in order to improve fairness of these systems. We suggest different strategies to improve chatbots and also advocate for an impartial review panel that has access to the model parameters to measure the levels of different types of biases and then recommends safeguards that move toward responses that are less discriminatory and more accurate.

arxiv情報

著者 Yanchen Wang,Lisa Singh
発行日 2023-06-13 02:23:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY パーマリンク