RICoTA: Red-teaming of In-the-wild Conversation with Test Attempts

要約

会話エージェント(CAS)とのユーザーの相互作用は、厳しくガードレールされた大手言語モデル(LLM)の時代に進化します。
ユーザーがプログラムされた境界を超えてこれらのシステムとの関係を調査および構築するにつれて、一般に「ジェイルブレイク」と呼ばれる不正アクセスまたは操作の可能性に関して懸念が高まっています。
さらに、非常に人間のような資質を持っているCASを使用して、ユーザーは親密な性的相互作用を開始したり、チャットボットを飼いならそうとしたりする傾向を示しています。
これらの野生の相互作用をチャットボットのデザインにキャプチャして反映するために、脱獄の試みを撮影するワイルドユーザーメイドの対話を伴うLLMに挑戦する609プロンプトで構成される韓国の赤いチーム化データセットであるRicotaを提案します。
ソーシャルチャットボットを使用した特定のテストとゲームの意図を含む、韓国のRedditのようなコミュニティで自己投稿されたユーザーチャットボットの会話を利用しています。
これらのプロンプトを使用して、LLMSの会話の種類とユーザーのテスト目的を特定する能力を評価することを目指しており、チャットボットのデザインの影響を導き出すための影響を導き出すための影響を導き出します。
データセットはGithubを介して公開されます。

要約(オリジナル)

User interactions with conversational agents (CAs) evolve in the era of heavily guardrailed large language models (LLMs). As users push beyond programmed boundaries to explore and build relationships with these systems, there is a growing concern regarding the potential for unauthorized access or manipulation, commonly referred to as ‘jailbreaking.’ Moreover, with CAs that possess highly human-like qualities, users show a tendency toward initiating intimate sexual interactions or attempting to tame their chatbots. To capture and reflect these in-the-wild interactions into chatbot designs, we propose RICoTA, a Korean red teaming dataset that consists of 609 prompts challenging LLMs with in-the-wild user-made dialogues capturing jailbreak attempts. We utilize user-chatbot conversations that were self-posted on a Korean Reddit-like community, containing specific testing and gaming intentions with a social chatbot. With these prompts, we aim to evaluate LLMs’ ability to identify the type of conversation and users’ testing purposes to derive chatbot design implications for mitigating jailbreaking risks. Our dataset will be made publicly available via GitHub.

arxiv情報

著者 Eujeong Choi,Younghun Jeong,Soomin Kim,Won Ik Cho
発行日 2025-01-29 15:32:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク