要約
増分シーケンスのラベル付けタスクには、以前のクラスの知識を保持しながら、時間の経過とともに新しいクラスを継続的に学習することが含まれます。
私たちの調査では、E2O (モデルが古いエンティティを非エンティティとして誤ってラベル付けする) と O2E (モデルが非エンティティまたは古いエンティティを新しいエンティティとしてラベル付けする) という 2 つの重要な意味論的変化が特定されました。
これまでの研究は主に E2O 問題に対処することに焦点を当てており、O2E 問題は無視されてきました。
この過失により、学習プロセス中に新しいデータ サンプルが新しいクラスに属するものとして分類されるというモデルのバイアスが生じます。
これらの課題に対処するために、私たちは新しいフレームワークである Incremental Sequential Labeling without Semantic Shifts (IS3) を提案します。
特定されたセマンティックシフト (E2O および O2E) を動機として、IS3 はモデルにおける壊滅的な忘却を軽減することを目的としています。
E2O 問題に関しては、古いエンティティに対するモデルの識別能力を維持するために知識の蒸留を使用します。
同時に、O2E 問題に取り組むために、バイアスを軽減した損失と最適化レベルを通じて、新しいエンティティに対するモデルのバイアスを軽減します。
さまざまな増分設定を使用して 3 つのデータセットに対して実施された実験評価では、以前の最先端の方法と比較して、IS3 のパフォーマンスが大幅に優れていることが実証されました。データ、コード、スクリプトは https:/ で公開されています。
/github.com/zzz47zzz/codebase-for-incremental-learning-with-llm。
要約(オリジナル)
The incremental sequence labeling task involves continuously learning new classes over time while retaining knowledge of the previous ones. Our investigation identifies two significant semantic shifts: E2O (where the model mislabels an old entity as a non-entity) and O2E (where the model labels a non-entity or old entity as a new entity). Previous research has predominantly focused on addressing the E2O problem, neglecting the O2E issue. This negligence results in a model bias towards classifying new data samples as belonging to the new class during the learning process. To address these challenges, we propose a novel framework, Incremental Sequential Labeling without Semantic Shifts (IS3). Motivated by the identified semantic shifts (E2O and O2E), IS3 aims to mitigate catastrophic forgetting in models. As for the E2O problem, we use knowledge distillation to maintain the model’s discriminative ability for old entities. Simultaneously, to tackle the O2E problem, we alleviate the model’s bias towards new entities through debiased loss and optimization levels. Our experimental evaluation, conducted on three datasets with various incremental settings, demonstrates the superior performance of IS3 compared to the previous state-of-the-art method by a significant margin.The data, code, and scripts are publicly available at https://github.com/zzz47zzz/codebase-for-incremental-learning-with-llm.
arxiv情報
著者 | Shengjie Qiu,Junhao Zheng,Zhen Liu,Yicheng Luo,Qianli Ma |
発行日 | 2024-05-27 15:23:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google