Adaptation Approaches for Nearest Neighbor Language Models

要約

セミパラメトリック最近傍言語モデル ($k$NN-LM) は、外部メモリ データストアに対する大規模な近傍検索を活用することにより、純粋なパラメトリック LM に比べて目覚ましい進歩をもたらしました。
しかし、そのようなモデルを新しい領域に適応させることについての研究はほとんど行われていません。
この研究はそのギャップを埋めることを試みており、$k$NN-LM を適応させるための次のアプローチを提案しています — 1) 基礎となる LM の適応 (アダプターを使用)、2) 追加の適応データストアに対する近傍検索の拡張、および 3) 重みの適応
学習された Rescorer モジュールを使用して取得された近傍の (スコア)。
私たちは、各適応戦略を個別に研究するだけでなく、アブレーション実験と 7 つの適応ドメインにわたって実行される広範な評価セットによる総合的なパフォーマンスの向上も研究します。
私たちの組み合わせた適応アプローチは、純粋なパラメトリック適応と、適応データからデータストアを構築するゼロショット ($k$NN-LM) ベースラインよりも常に優れています。
平均すると、ドメイン全体で、これらのそれぞれのベースラインについて、複雑性が 17.1% および 16% 改善されました。

要約(オリジナル)

Semi-parametric Nearest Neighbor Language Models ($k$NN-LMs) have produced impressive gains over purely parametric LMs, by leveraging large-scale neighborhood retrieval over external memory datastores. However, there has been little investigation into adapting such models for new domains. This work attempts to fill that gap and suggests the following approaches for adapting $k$NN-LMs — 1) adapting the underlying LM (using Adapters), 2) expanding neighborhood retrieval over an additional adaptation datastore, and 3) adapting the weights (scores) of retrieved neighbors using a learned Rescorer module. We study each adaptation strategy separately, as well as the combined performance improvement through ablation experiments and an extensive set of evaluations run over seven adaptation domains. Our combined adaptation approach consistently outperforms purely parametric adaptation and zero-shot ($k$NN-LM) baselines that construct datastores from the adaptation data. On average, we see perplexity improvements of 17.1% and 16% for these respective baselines, across domains.

arxiv情報

著者 Rishabh Bhardwaj,George Polovets,Monica Sunkara
発行日 2023-06-12 16:22:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク