要約
最近の自然言語処理 (NLP) のブレークスルーにより、一貫性のあるテキストの合成と理解が無制限に可能になり、理論上のアルゴリズムを実用的なアプリケーションに変換できるようになりました。
大規模な言語モデル (LLM) は、レポート要約ソフトウェアやコピーライターなどのビジネスに大きな影響を与えています。
しかし観察によると、LLM は社会的偏見や毒性を示す可能性があり、無責任から生じる結果の倫理的および社会的危険をもたらします。
したがって、説明責任のある LLM の大規模なベンチマークを開発する必要があります。
いくつかの実証的調査により、高度な LLM にはいくつかの倫理的問題が存在することが明らかになりましたが、現在の LLM 使用の倫理に関する体系的な調査やユーザー調査は行われていません。
責任を持って倫理的な LLM を構築するための今後の取り組みをさらに教育するために、OpenAI の ChatGPT で定性的な調査方法を実行し、最近の LLM における倫理的な危険の実際的な特徴をよりよく理解します。
ChatGPT を 1) \textit{Bias} 2) \textit{Reliability} 3) \textit{Robustness} 4) \textit{Toxicity} の 4 つの観点から包括的に分析します。
私たちが述べた視点に従って、複数のサンプル データセットで ChatGPT を経験的にベンチマークします。
かなりの数の倫理的リスクが既存のベンチマークでは対処できないことがわかったため、追加のケーススタディを通じてそれらを説明します。
さらに、ChatGPT の AI 倫理に関する調査結果の意味、および LLM の将来の問題と実際の設計上の考慮事項を調べます。
私たちの調査結果は、LLM アプリケーションでマシンによって引き起こされる倫理的危険を特定し、軽減するための将来の取り組みに光を当てる可能性があると考えています。
要約(オリジナル)
Recent breakthroughs in natural language processing (NLP) have permitted the synthesis and comprehension of coherent text in an open-ended way, therefore translating the theoretical algorithms into practical applications. The large language-model (LLM) has significantly impacted businesses such as report summarization softwares and copywriters. Observations indicate, however, that LLMs may exhibit social prejudice and toxicity, posing ethical and societal dangers of consequences resulting from irresponsibility. Large-scale benchmarks for accountable LLMs should consequently be developed. Although several empirical investigations reveal the existence of a few ethical difficulties in advanced LLMs, there is no systematic examination and user study of the ethics of current LLMs use. To further educate future efforts on constructing ethical LLMs responsibly, we perform a qualitative research method on OpenAI’s ChatGPT to better understand the practical features of ethical dangers in recent LLMs. We analyze ChatGPT comprehensively from four perspectives: 1) \textit{Bias} 2) \textit{Reliability} 3) \textit{Robustness} 4) \textit{Toxicity}. In accordance with our stated viewpoints, we empirically benchmark ChatGPT on multiple sample datasets. We find that a significant number of ethical risks cannot be addressed by existing benchmarks, and hence illustrate them via additional case studies. In addition, we examine the implications of our findings on the AI ethics of ChatGPT, as well as future problems and practical design considerations for LLMs. We believe that our findings may give light on future efforts to determine and mitigate the ethical hazards posed by machines in LLM applications.
arxiv情報
著者 | Terry Yue Zhuo,Yujin Huang,Chunyang Chen,Zhenchang Xing |
発行日 | 2023-02-20 16:29:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google