要約
この論文では、(Karpukhin et. al. 2020) によって開発された、トランスフォーマーベースの密通路検索 (DPR) アルゴリズムが、事前トレーニングなしでどの程度最適化できるかを検討します。
私たちの方法には 2 つの特別な洞察が含まれています。1 つはさまざまなフレーズの長さ (例: 1 文セグメントと 5 文セグメント) で DPR コンテキスト エンコーダーを適用し、これらの異なるセグメンテーションのすべてにわたって信頼度調整されたアンサンブル予測を取得します。
このやや徹底的なアプローチにより、Google NQ や SQuAD などのベンチマーク データセットで最先端の結果が得られます。
また、この方法をドメイン固有のデータセットにも適用し、その結果は、異なるドメインに対して異なる粒度がどのように最適であるかを示唆しています。
要約(オリジナル)
In this paper, we consider the extent to which the transformer-based Dense Passage Retrieval (DPR) algorithm, developed by (Karpukhin et. al. 2020), can be optimized without further pre-training. Our method involves two particular insights: we apply the DPR context encoder at various phrase lengths (e.g. one-sentence versus five-sentence segments), and we take a confidence-calibrated ensemble prediction over all of these different segmentations. This somewhat exhaustive approach achieves start-of-the-art results on benchmark datasets such as Google NQ and SQuAD. We also apply our method to domain-specific datasets, and the results suggest how different granularities are optimal for different domains
arxiv情報
著者 | William Yang,Noah Bergam,Arnav Jain,Nima Sheikhoslami |
発行日 | 2023-06-28 04:40:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google