Re$^3$Dial: Retrieve, Reorganize and Rescale Dialogue Corpus for Long-Turn Open-Domain Dialogue Pre-training

要約

タイトル:長いターンのオープンドメインの対話の事前トレーニングのためのダイアログコーパスの検索、再構成、再スケール

要約:
– 大規模なオープンドメインの対話データは、パブリックソーシャルメディアからクロールされており、対話モデルのパフォーマンスを大幅に向上させている。しかし、長いターンの対話は非常に希少であり、既存のコーパスの多くの対話セッションは3ターン未満である。
– この問題を軽減するために、短いターンの対話データから100億スケールの長いターンの対話コーパスを自動的に構築するリトリーブ、リオーガナイズ、リスケールフレームワーク(Re$^3$Dial)を提案している。
– Re$^3$Dialは、最初に非監督密度セッションリトリーバー(UDSR)をトレーニングして、関連性のあるセッションを取得することでマルチターンの対話内の意味的および論理的関係を捉える。次に、提案された多様性サンプリング戦略を使用して、連続するセッションを再帰的に取得および選択することで、短いターンの対話を長いターンのセッションに再編成する。
– 複数のマルチターン対話ベンチマークでの大規模な評価により、Re$^3$Dialが常に、異なる事前トレーニング設定においてマルチターン対話の長期的な文脈をモデル化するための対話モデルの能力を著しく向上させることが示された。
– 最後に、Re$^3$Dialを使用して効率的にダイアログコーパスを再スケールするツールキットを構築し、平均11.3ターンの1Bの中国語ダイアログセッションを含むコーパスを構築することができた(元のEVAコーパスの5倍)。UDSRモデル、ツールキット、およびデータを公開する予定。

要約(オリジナル)

Large-scale open-domain dialogue data crawled from public social media has greatly improved the performance of dialogue models. However, long-turn dialogues are still highly scarce. Specifically, most dialogue sessions in existing corpora have less than three turns. To alleviate this issue, we propose the Retrieve, Reorganize and Rescale framework (Re$^3$Dial), which can automatically construct a billion-scale long-turn dialogue corpus from existing short-turn dialogue data. Re$^3$Dial first trains an Unsupervised Dense Session Retriever (UDSR) to capture semantic and discourse relationships within multi-turn dialogues for retrieving relevant and coherent sessions. It then reorganizes the short-turn dialogues into long-turn sessions via recursively retrieving and selecting the consecutive sessions with our proposed diversity sampling strategy. Extensive evaluations on multiple multi-turn dialogue benchmarks demonstrate that Re$^3$Dial consistently and significantly improves the dialogue model’s ability to utilize long-term context for modeling multi-turn dialogues across different pre-training settings. Finally, we build a toolkit for efficiently rescaling dialogue corpus with Re$^3$Dial, which enables us to construct a corpus containing 1B Chinese dialogue sessions with 11.3 turns on average (5X longer than the original EVA corpus). We will release our UDSR model, toolkit, and data for public use.

arxiv情報

著者 Jiaxin Wen,Hao Zhou,Minlie Huang
発行日 2023-05-04 07:28:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク