Advancing continual lifelong learning in neural information retrieval: definition, dataset, framework, and empirical evaluation

要約

継続的学習とは、以前に学習したタスクのパフォーマンスを損なうことなく、新しい情報を学習して適応する機械学習モデルの機能を指します。
いくつかの研究で情報検索タスクの継続的な学習方法が調査されていますが、明確に定義されたタスクの定式化がまだ不足しており、この状況で典型的な学習戦略がどのように機能するかは不明です。
この課題に対処するために、継続的な神経情報検索の体系的なタスク定式化が、継続的な情報検索をシミュレートする複数トピック データセットとともに提示されます。
次に、典型的な検索モデルと継続的学習戦略から構成される包括的な継続的神経情報検索フレームワークを提案します。
経験的評価は、提案されたフレームワークが神経情報検索における致命的な忘却をうまく防止し、以前に学習したタスクのパフォーマンスを向上させることができることを示しています。
この結果は、埋め込みベースの検索モデルでは、トピックの移動距離と新しいタスクのデータセット量が増加するにつれて、継続的な学習パフォーマンスが低下することを示しています。
対照的に、事前トレーニングベースのモデルにはそのような相関関係は見られません。
適切な学習戦略を採用すると、トピックの変更やデータの増加の影響を軽減できます。

要約(オリジナル)

Continual learning refers to the capability of a machine learning model to learn and adapt to new information, without compromising its performance on previously learned tasks. Although several studies have investigated continual learning methods for information retrieval tasks, a well-defined task formulation is still lacking, and it is unclear how typical learning strategies perform in this context. To address this challenge, a systematic task formulation of continual neural information retrieval is presented, along with a multiple-topic dataset that simulates continuous information retrieval. A comprehensive continual neural information retrieval framework consisting of typical retrieval models and continual learning strategies is then proposed. Empirical evaluations illustrate that the proposed framework can successfully prevent catastrophic forgetting in neural information retrieval and enhance performance on previously learned tasks. The results indicate that embedding-based retrieval models experience a decline in their continual learning performance as the topic shift distance and dataset volume of new tasks increase. In contrast, pretraining-based models do not show any such correlation. Adopting suitable learning strategies can mitigate the effects of topic shift and data augmentation.

arxiv情報

著者 Jingrui Hou,Georgina Cosma,Axel Finke
発行日 2023-08-16 14:01:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク