Uni-Encoder: A Fast and Accurate Response Selection Paradigm for Generation-Based Dialogue Systems

要約

タイトル: Uni-Encoder:生成型対話システムの高速で正確な応答選択パラダイム

要約:
– Sample-and-rankは、現代の生成型対話システムにおける主要なデコーディング戦略である。これにより、生成された少数の候補から答えを選択することで、多様で高品質な応答を実現する。
– 現在の最先端のランキング手法は、Cross-Encoderと呼ばれるエンコーディングパラダイムを主に使用しており、コンテキスト-候補ペアを個別にエンコードし、フィットネススコアに基づいて候補をランク付けする。
– Cross-Encoderは、各候補に対して同じ長いコンテキストを繰り返しエンコードするため、高い計算コストがかかる。
– Poly-Encoderは、コンテキストと候補の相互作用を減らすことで上記の問題に対処するが、性能低下の代償がある。
– この研究では、コンテキストを1回のみエンコードするPoly-Encoderと同様に全体の注意を保持しつつ、Cross-Encoderと同様に各候補に対して完全な注意を与えるUni-Encoderと呼ばれる新しいパラダイムを開発した。
– Uni-Encoderは、すべての候補を1回のフォワードパスでコンテキストと一緒にエンコードする。すべての候補に同じ位置エンコーディングを使用して、均等に扱われるようにし、混乱を避けるために新しいアテンションメカニズムを設計した。
– 提案されたUni-Encoderは、異なるアテンションと応答連結方法を使用して他のランキングパラダイムをシミュレートすることができる。
– 広範な実験により、提案されたパラダイムが高い計算効率で4つのベンチマークデータセットで新しい最先端の結果を実現することが示されており、Ubuntu V2データセットでR10@1を2.9%改善し、約4倍の高速な推論速度を実現している。

要約(オリジナル)

Sample-and-rank is a key decoding strategy for modern generation-based dialogue systems. It helps achieve diverse and high-quality responses by selecting an answer from a small pool of generated candidates. The current state-of-the-art ranking methods mainly use an encoding paradigm called Cross-Encoder, which separately encodes each context-candidate pair and ranks the candidates according to their fitness scores. However, Cross-Encoder repeatedly encodes the same lengthy context for each candidate, resulting in high computational costs. Poly-Encoder addresses the above problems by reducing the interaction between context and candidates, but with a price of performance drop. In this work, we develop a new paradigm called Uni-Encoder, that keeps the full attention over each pair as in Cross-Encoder while only encoding the context once, as in Poly-Encoder. Uni-Encoder encodes all the candidates with the context in one forward pass. We use the same positional embedding for all candidates to ensure they are treated equally and design a new attention mechanism to avoid confusion. Our Uni-Encoder can simulate other ranking paradigms using different attention and response concatenation methods. Extensive experiments show that our proposed paradigm achieves new state-of-the-art results on four benchmark datasets with high computational efficiency. For instance, it improves R10@1 by 2.9% with an approximately 4X faster inference speed on the Ubuntu V2 dataset.

arxiv情報

著者 Chiyu Song,Hongliang He,Haofei Yu,Pengfei Fang,Leyang Cui,Zhenzhong Lan
発行日 2023-05-02 18:32:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク