WildChat: 1M ChatGPT Interaction Logs in the Wild

要約

GPT-4 や ChatGPT などのチャットボットは現在、何百万ものユーザーにサービスを提供しています。
これらのツールは広く使用されているにもかかわらず、これらのツールが実際にユーザー集団によってどのように使用されているかを示す公開データセットが依然として不足しています。
このギャップを埋めるために、オンライン ユーザーに ChatGPT への無料アクセスを提供し、その代わりに同意に基づいた積極的なオプトインを使用してチャットのトランスクリプトとリクエスト ヘッダーを匿名で収集しました。
これをもとに、250 万を超えるインタラクション ターンで構成される 100 万件のユーザーと ChatGPT の会話のコーパスである WildChat を編集しました。
WildChat を他の一般的なユーザー – チャットボット インタラクション データセットと比較したところ、私たちのデータセットは最も多様なユーザー プロンプトを提供し、最も多くの言語を含み、研究者が研究する潜在的に有害なユースケースの種類が最も豊富であることがわかりました。
タイムスタンプ付きのチャット記録に加えて、州、国、ハッシュ化された IP アドレスなどの人口統計データとリクエスト ヘッダーをデータセットに追加します。
この拡張により、さまざまな地理的領域および時間的次元にわたるユーザーの行動をより詳細に分析できるようになります。
最後に、このデータセットは幅広いユースケースを捉えているため、命令追従モデルの微調整におけるこのデータセットの潜在的な有用性を実証します。
WildChat は、AI2 ImpACT ライセンスに基づいて https://wildchat.allen.ai でリリースされます。

要約(オリジナル)

Chatbots such as GPT-4 and ChatGPT are now serving millions of users. Despite their widespread use, there remains a lack of public datasets showcasing how these tools are used by a population of users in practice. To bridge this gap, we offered free access to ChatGPT for online users in exchange for their affirmative, consensual opt-in to anonymously collect their chat transcripts and request headers. From this, we compiled WildChat, a corpus of 1 million user-ChatGPT conversations, which consists of over 2.5 million interaction turns. We compare WildChat with other popular user-chatbot interaction datasets, and find that our dataset offers the most diverse user prompts, contains the largest number of languages, and presents the richest variety of potentially toxic use-cases for researchers to study. In addition to timestamped chat transcripts, we enrich the dataset with demographic data, including state, country, and hashed IP addresses, alongside request headers. This augmentation allows for more detailed analysis of user behaviors across different geographical regions and temporal dimensions. Finally, because it captures a broad range of use cases, we demonstrate the dataset’s potential utility in fine-tuning instruction-following models. WildChat is released at https://wildchat.allen.ai under AI2 ImpACT Licenses.

arxiv情報

著者 Wenting Zhao,Xiang Ren,Jack Hessel,Claire Cardie,Yejin Choi,Yuntian Deng
発行日 2024-05-02 17:00:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク