Explicit and Implicit Semantic Ranking Framework

要約

タイトル:明示的および暗黙的意味的ランキングフレームワーク
要約:

– リアルワールドの多数のアプリケーションにおいて、問い合わせを可変で有限な候補者セットから最適な文書にマッチングさせることが求められる
– 既存の産業分野のソリューションでは、レイテンシに制約されたサービスにおいて、スピードを優先するために品質を犠牲にした類似度アルゴリズムがしばしば使用されている
– この論文では、Self-training Semantic Cross-attention Ranking(sRank)という汎用的な意味的ランキングフレームワークを紹介する
– このtransformerベースのフレームワークは、可変のトレーニングバッチサイズで線形ペアワイズ損失を使用し、高い効率性と品質向上を実現しており、Microsoftの2つの業務に適用され、実際の大規模なデータセットでの利点が示されている
– Smart Replyでは、顧客と技術サポート担当者のメッセージに基づいて、事前定義されたソリューションから最適な返信を選択することで、顧客に助言を提供することができる。一方、Ambient Clinical Intelligence(ACI)では、テキスト要約モデルのための指示となる医師テンプレートを選択することで、医療ノートの品質を向上させることができる
– Smart Replyの場合、前のシステムに比べてオフラインのトップワン精度で11.7%の向上を実現し、2021年1月の一般公開以来、メッセージ作成時間を38.7%削減している
– ACIの場合、sRankはトップワン精度で35.5%の向上を実現し、生成された医療ノートに対しては46%の相対ROUGE-Lゲインを達成している。

要約(オリジナル)

The core challenge in numerous real-world applications is to match an inquiry to the best document from a mutable and finite set of candidates. Existing industry solutions, especially latency-constrained services, often rely on similarity algorithms that sacrifice quality for speed. In this paper we introduce a generic semantic learning-to-rank framework, Self-training Semantic Cross-attention Ranking (sRank). This transformer-based framework uses linear pairwise loss with mutable training batch sizes and achieves quality gains and high efficiency, and has been applied effectively to show gains on two industry tasks at Microsoft over real-world large-scale data sets: Smart Reply (SR) and Ambient Clinical Intelligence (ACI). In Smart Reply, $sRank$ assists live customers with technical support by selecting the best reply from predefined solutions based on consumer and support agent messages. It achieves 11.7% gain in offline top-one accuracy on the SR task over the previous system, and has enabled 38.7% time reduction in composing messages in telemetry recorded since its general release in January 2021. In the ACI task, sRank selects relevant historical physician templates that serve as guidance for a text summarization model to generate higher quality medical notes. It achieves 35.5% top-one accuracy gain, along with 46% relative ROUGE-L gain in generated medical notes.

arxiv情報

著者 Xiaofeng Zhu,Thomas Lin,Vishal Anand,Matthew Calderwood,Eric Clausen-Brown,Gord Lueck,Wen-wai Yim,Cheng Wu
発行日 2023-04-11 01:10:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.IR パーマリンク