Optimize Incompatible Parameters through Compatibility-aware Knowledge Integration

要約

ディープニューラルネットワークは、レコメンデーションシステムや自然言語処理など、様々な領域における進歩の基礎となっている。その成功にもかかわらず、これらのモデルには、特に特定の様々なデータ分布に直面したときに、十分に活用されなかったり、モデルの性能に悪影響を及ぼしたりする、互換性のないパラメータが含まれていることがよくあります。既存の研究は、このようなパラメータを除去したり、複数の異なる事前学習済みモデルの出力を統合したりすることに優れています。しかし、前者は性能よりも効率に重点を置いており、後者は推論をサポートするために数倍のコンピューティングリソースとストレージリソースを必要とする。本論文では、異なるモデルの相補的な強みを活用することで、これらの互換性のないパラメータを明示的に改善し、パラメータを追加することなくモデルを直接強化することを目標とする。具体的には、パラメータ互換性評価とパラメータスプライシングからなる互換性を考慮した知識統合(CKI)を提案し、それぞれ複数のモデルの知識内容を評価し、知識を1つのモデルに統合する。統合されたモデルは、推論に直接利用することも、さらなる微調整に利用することもできる。その結果、互換性を考慮した知識統合は、複数のタスクや設定の下で互換性のないパラメータを効果的に最適化し、推論コストを増加させることなく、元のモデルの学習限界を突破できることが示される。

要約(オリジナル)

Deep neural networks have become foundational to advancements in multiple domains, including recommendation systems, natural language processing, and so on. Despite their successes, these models often contain incompatible parameters that can be underutilized or detrimental to model performance, particularly when faced with specific, varying data distributions. Existing research excels in removing such parameters or merging the outputs of multiple different pretrained models. However, the former focuses on efficiency rather than performance, while the latter requires several times more computing and storage resources to support inference. In this paper, we set the goal to explicitly improve these incompatible parameters by leveraging the complementary strengths of different models, thereby directly enhancing the models without any additional parameters. Specifically, we propose Compatibility-aware Knowledge Integration (CKI), which consists of Parameter Compatibility Assessment and Parameter Splicing, which are used to evaluate the knowledge content of multiple models and integrate the knowledge into one model, respectively. The integrated model can be used directly for inference or for further fine-tuning. We conduct extensive experiments on various datasets for recommendation and language tasks, and the results show that Compatibility-aware Knowledge Integration can effectively optimize incompatible parameters under multiple tasks and settings to break through the training limit of the original model without increasing the inference cost.

arxiv情報

著者 Zheqi Lv,Keming Ye,Zishu Wei,Qi Tian,Shengyu Zhang,Wenqiao Zhang,Wenjie Wang,Kun Kuang,Tat-Seng Chua,Fei Wu
発行日 2025-03-03 13:27:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.IR, cs.LG パーマリンク