PIPPA: A Partially Synthetic Conversational Dataset

要約

ますます強力になっている大規模な言語モデルの出現に伴い、これらのモデルをカジュアルな会話やロールプレイ アプリケーションに活用することへの関心が高まっています。
しかし、既存の会話データセットやロールプレイング データセットでは、現実世界のロールプレイ参加者が典型的に示す多様で微妙なやりとりを捉えることができないことがよくあります。
この制限に対処し、急速に成長する分野に貢献するために、PIPPA (人と AI の間のパーソナル インタラクション ペア) という名前の部分合成データセットを導入します。
PIPPA は、ロールプレイ愛好家のグループが参加するコミュニティ主導のクラウドソーシングの取り組みの成果です。
このデータセットは、26,000 の会話セッションに分散された 100 万を超える発話で構成されており、研究者や AI 開発者がロールプレイ シナリオのコンテキストで会話型 AI システムを調査および改良するための豊富なリソースを提供します。

要約(オリジナル)

With the emergence of increasingly powerful large language models, there is a burgeoning interest in leveraging these models for casual conversation and role-play applications. However, existing conversational and role-playing datasets often fail to capture the diverse and nuanced interactions typically exhibited by real-world role-play participants. To address this limitation and contribute to the rapidly growing field, we introduce a partially-synthetic dataset named PIPPA (Personal Interaction Pairs between People and AI). PIPPA is a result of a community-driven crowdsourcing effort involving a group of role-play enthusiasts. The dataset comprises over 1 million utterances that are distributed across 26,000 conversation sessions and provides a rich resource for researchers and AI developers to explore and refine conversational AI systems in the context of role-play scenarios.

arxiv情報

著者 Tear Gosling,Alpin Dale,Yinhe Zheng
発行日 2023-08-11 00:33:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク