On the Generalization Ability of Retrieval-Enhanced Transformers

要約

Retrieval-Enhanced Transformer (RETRO) モデルに関する最近の研究では、トレーニング可能な重みから検索データベースにメモリをオフロードすると、言語モデリングが大幅に改善され、サイズが桁違いに大きい非検索モデルのパフォーマンスに匹敵することが示されました。
このパフォーマンスの向上の少なくとも一部は、モデルの重みと検索の両方に基づく自明でない一般化によるものであることが示唆されています。
このホワイト ペーパーでは、これら 2 つのコンポーネントの相対的な寄与をよりよく理解しようとします。
検索によるパフォーマンスの向上は、主にデータベースとテスト データ間のトークンの重複に起因することがわかり、以前に想定されていたよりも重要な一般化が少ないことを示唆しています。
より一般的には、限られたトークンの重複でもテスト時間の損失を大幅に減らす可能性があるため、RETRO などの検索拡張言語モデルの一般化を評価するという課題を結果は指摘しています。
コードとモデルを https://github.com/TobiasNorlund/retro でリリースします

要約(オリジナル)

Recent work on the Retrieval-Enhanced Transformer (RETRO) model has shown that off-loading memory from trainable weights to a retrieval database can significantly improve language modeling and match the performance of non-retrieval models that are an order of magnitude larger in size. It has been suggested that at least some of this performance gain is due to non-trivial generalization based on both model weights and retrieval. In this paper, we try to better understand the relative contributions of these two components. We find that the performance gains from retrieval largely originate from overlapping tokens between the database and the test data, suggesting less non-trivial generalization than previously assumed. More generally, our results point to the challenges of evaluating the generalization of retrieval-augmented language models such as RETRO, as even limited token overlap may significantly decrease test-time loss. We release our code and model at https://github.com/TobiasNorlund/retro

arxiv情報

著者 Tobias Norlund,Ehsan Doostmohammadi,Richard Johansson,Marco Kuhlmann
発行日 2023-02-23 16:11:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク