要約
ChatGPT のような大規模な言語モデルは、最近、自然言語の理解と生成において優れた機能を実証し、翻訳、エッセイの執筆、おしゃべりなどのさまざまなアプリケーションを可能にしています。
ただし、詐欺やサービス拒否攻撃などの悪意のある目的に悪用される可能性があるという懸念があります。
したがって、会話の相手がボットであるか人間であるかを検出する方法を開発することが重要です。
この論文では、オンラインで会話型ボットを検出するために、単一の問い合わせと応答を介して大規模な言語モデルの信頼性を見つける FLAIR というフレームワークを提案します。
具体的には、人間のユーザーとボットを効果的に区別できる単一の質問シナリオをターゲットとしています。
問題は 2 つのカテゴリに分類されます。人間には簡単だがボットには難しい問題 (例: 数える、置換、位置決め、ノイズ フィルター、アスキー アート)、およびボットには簡単だが人間には難しい問題 (例: 暗記)
と計算)。
私たちのアプローチは、これらの質問の有効性におけるさまざまな強みを示し、オンライン サービス プロバイダーが不正な活動から身を守り、実際のユーザーに確実にサービスを提供できるようにするための新しい方法を提供します。
私たちはデータセットを https://github.com/hongwang600/FLAIR でオープンソース化しており、このような検出データセットを充実させるためのコミュニティからの貢献を歓迎しています。
要約(オリジナル)
Large language models like ChatGPT have recently demonstrated impressive capabilities in natural language understanding and generation, enabling various applications including translation, essay writing, and chit-chatting. However, there is a concern that they can be misused for malicious purposes, such as fraud or denial-of-service attacks. Therefore, it is crucial to develop methods for detecting whether the party involved in a conversation is a bot or a human. In this paper, we propose a framework named FLAIR, Finding Large language model Authenticity via a single Inquiry and Response, to detect conversational bots in an online manner. Specifically, we target a single question scenario that can effectively differentiate human users from bots. The questions are divided into two categories: those that are easy for humans but difficult for bots (e.g., counting, substitution, positioning, noise filtering, and ASCII art), and those that are easy for bots but difficult for humans (e.g., memorization and computation). Our approach shows different strengths of these questions in their effectiveness, providing a new way for online service providers to protect themselves against nefarious activities and ensure that they are serving real users. We open-sourced our dataset on https://github.com/hongwang600/FLAIR and welcome contributions from the community to enrich such detection datasets.
arxiv情報
著者 | Hong Wang,Xuan Luo,Weizhi Wang,Xifeng Yan |
発行日 | 2023-05-16 17:59:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google