要約
この研究は、特定のタスク用の ChatGPT のような倫理的にトリミングされたモデルに焦点を当てた先行研究のほとんどとは対照的に、多様で制約のない設定における大規模言語モデル (LLM) と現実世界の人間の相互作用を調査しています。
私たちは毒性の根源を理解することを目指しています。
私たちの調査結果によると、LLM は有害なコンテンツを提供しているとして正当に非難されていますが、そのようなコンテンツを積極的に求める人間によって要求されているか、少なくとも誘発されていることがほとんどです。
API 商用ベンダーによって有害と判断された数百件の会話を手動で分析した結果、ユーザーのリクエストがどのような回答を拒否されているかに関する現在の慣行に関しても疑問が生じています。
さらに、複数の経験的指標に基づいて、人間は精神モデルの変化を示し、機械と対話する考え方から人間と対話する考え方に切り替わると推測しています。
要約(オリジナル)
This study explores real-world human interactions with large language models (LLMs) in diverse, unconstrained settings in contrast to most prior research focusing on ethically trimmed models like ChatGPT for specific tasks. We aim to understand the originator of toxicity. Our findings show that although LLMs are rightfully accused of providing toxic content, it is mostly demanded or at least provoked by humans who actively seek such content. Our manual analysis of hundreds of conversations judged as toxic by APIs commercial vendors, also raises questions with respect to current practices of what user requests are refused to answer. Furthermore, we conjecture based on multiple empirical indicators that humans exhibit a change of their mental model, switching from the mindset of interacting with a machine more towards interacting with a human.
arxiv情報
著者 | Johannes Schneider,Arianna Casanova Flores,Anne-Catherine Kranz |
発行日 | 2024-07-08 14:20:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google