Data-CUBE: Data Curriculum for Instruction-based Sentence Representation Learning

要約

最近、マルチタスク命令チューニングが文表現学習に適用され、タスク命令のガイダンスによって特定の表現を生成する能力が付与され、新しいタスクに対して強力な汎化能力が発揮されます。
ただし、これらの方法では、モデルのトレーニングと収束に影響を与える可能性がある、さまざまなタスクやインスタンスにわたる潜在的な干渉問題がほとんど無視されます。
これに対処するために、我々は、トレーニング用のすべてのマルチタスク データの順序を整理して、2 つのビューからの干渉リスクを最小限に抑えるデータ カリキュラム手法、つまり Data-CUBE を提案します。
タスクレベルでは、全体的なタスク間干渉リスクを最小限に抑える最適なタスク順序を見つけることを目的としています。これはまさに巡回セールスマン問題です。そのため、その解決策を見つけるためにシミュレーテッドアニーリングアルゴリズムを利用します。
インスタンス レベルでは、タスクごとにすべてのインスタンスの難易度を測定し、トレーニング用に簡単なミニバッチから難しいミニバッチに分割します。
MTEB 文表現評価タスクに関する実験では、私たちのアプローチが最先端の手法のパフォーマンスを向上させることができることが示されています。
私たちのコードとデータは、リンク \url{https://github.com/RUCAIBox/Data-CUBE} で公開されています。

要約(オリジナル)

Recently, multi-task instruction tuning has been applied into sentence representation learning, which endows the capability of generating specific representations with the guidance of task instruction, exhibiting strong generalization ability on new tasks. However, these methods mostly neglect the potential interference problems across different tasks and instances, which may affect the training and convergence of the model. To address it, we propose a data curriculum method, namely Data-CUBE, that arranges the orders of all the multi-task data for training, to minimize the interference risks from the two views. In the task level, we aim to find the optimal task order to minimize the total cross-task interference risk, which is exactly the traveling salesman problem, hence we utilize a simulated annealing algorithm to find its solution. In the instance level, we measure the difficulty of all instances per task, then divide them into the easy-to-difficult mini-batches for training. Experiments on MTEB sentence representation evaluation tasks show that our approach can boost the performance of state-of-the-art methods. Our code and data are publicly available at the link: \url{https://github.com/RUCAIBox/Data-CUBE}.

arxiv情報

著者 Yingqian Min,Kun Zhou,Dawei Gao,Wayne Xin Zhao,He Hu,Yaliang Li
発行日 2024-01-07 18:12:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク