要約
タイトル: クラウドとペルソナが出会うとき:大規模なオープンドメインのペルソナ対話コーパスの作成
要約:
– 自然言語のデータセットを構築するには注意が必要であり、語義は微妙なテキストの変化や注釈付き概念の定義に影響を受けることがある。
– これは、質問応答や対話生成のような生成タスクや、トピック分類や感情分析のような分類ベースのコーパスを作成するタスクでも見られる。
– オープンドメインの会話は、2人以上のクラウドワーカーが自由にあらゆるトピックについて会話することを含むが、このようなデータを収集することは2つの理由から特に困難である。
– データセットはプライバシーの問題のために「手作り」される必要がある。
– それらのダイアログを有料で作成することは、クラウドワーカーが現実世界のセッティングでどのように振る舞うかと異なる可能性がある。
– この研究では、ペルソナという用語は、固定されたペルソナを持つ複数のアクターによって、未指定のクラウドからのユーザーサイドのワーカーによって実行される会話を意味する、大規模なオープンドメインのペルソナ対話コーパスを作成する際にこれらの問題に取り組む。
要約(オリジナル)
Building a natural language dataset requires caution since word semantics is vulnerable to subtle text change or the definition of the annotated concept. Such a tendency can be seen in generative tasks like question-answering and dialogue generation and also in tasks that create a categorization-based corpus, like topic classification or sentiment analysis. Open-domain conversations involve two or more crowdworkers freely conversing about any topic, and collecting such data is particularly difficult for two reasons: 1) the dataset should be “crafted’ rather than “obtained’ due to privacy concerns, and 2) paid creation of such dialogues may differ from how crowdworkers behave in real-world settings. In this study, we tackle these issues when creating a large-scale open-domain persona dialogue corpus, where persona implies that the conversation is performed by several actors with a fixed persona and user-side workers from an unspecified crowd.
arxiv情報
| 著者 | Won Ik Cho,Yoon Kyung Lee,Seoyeon Bae,Jihwan Kim,Sangah Park,Moosung Kim,Sowon Hahn,Nam Soo Kim |
| 発行日 | 2023-04-01 16:10:36+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI