Human or Not? A Gamified Approach to the Turing Test

要約

私たちは、チューリング テストにインスピレーションを得たオンライン ゲーム「Human or Not?」を紹介します。このテストでは、AI チャットボットが対話で人間を模倣する能力と、人間がボットと他の人間を見分ける能力を測定します。
1 か月間にわたって、このゲームは 150 万人を超えるユーザーによってプレイされ、他の人間、または人間のように振る舞うように促された AI 言語モデルとの匿名の 2 分間チャット セッションに参加しました。
プレイヤーの課題は、自分が人間と話しているのか、それとも AI と話しているのかを正確に推測することでした。
これまでに実施されたこの最大規模のチューリング スタイル テストにより、いくつかの興味深い事実が明らかになりました。
たとえば、全体のユーザーがパートナーの身元を正確に推測したのは、ゲームの 68% のみでした。
ユーザーが AI ボットと対戦した一部のゲームでは、ユーザーの正解率はさらに低く 60% でした (つまり、確率よりもそれほど高くありません)。
このホワイト ペーパーでは、このユニークな実験の開発、展開、結果について詳しく説明します。
この実験には多くの拡張と改良が必要ですが、これらの発見はすでに、人間と AI が混在する避けられない近い将来に光を当て始めています。

要約(オリジナル)

We present ‘Human or Not?’, an online game inspired by the Turing test, that measures the capability of AI chatbots to mimic humans in dialog, and of humans to tell bots from other humans. Over the course of a month, the game was played by over 1.5 million users who engaged in anonymous two-minute chat sessions with either another human or an AI language model which was prompted to behave like humans. The task of the players was to correctly guess whether they spoke to a person or to an AI. This largest scale Turing-style test conducted to date revealed some interesting facts. For example, overall users guessed the identity of their partners correctly in only 68% of the games. In the subset of the games in which users faced an AI bot, users had even lower correct guess rates of 60% (that is, not much higher than chance). This white paper details the development, deployment, and results of this unique experiment. While this experiment calls for many extensions and refinements, these findings already begin to shed light on the inevitable near future which will commingle humans and AI.

arxiv情報

著者 Daniel Jannai,Amos Meron,Barak Lenz,Yoav Levine,Yoav Shoham
発行日 2023-05-31 16:32:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.AI, cs.CL, cs.CY, cs.HC, I.2.7 パーマリンク