要約
代表マルチタスク学習(MTL)は、実際に大きな成功を収めています。
ただし、これらの方法の理論的理解はまだ不足しています。
ほとんどの既存の理論的作品は、すべてのタスクが同じ表現を共有し、MTLがほとんど常にパフォーマンスを改善すると主張する場合に焦点を当てています。
それにもかかわらず、タスクの数が増えるにつれて、すべてのタスクが同じ表現を共有すると仮定すると、非現実的です。
さらに、経験的な調査結果は、共有された表現が必ずしもシングルタスク学習パフォーマンスを改善しないことをしばしば示しています。
この論文では、外れ値のタスクを扱いながら、\ textIT {類似ではないが正確には}線形表現では、タスクから学習する方法を理解することを目指しています。
既知の固有の次元を仮定すると、類似性構造に\ textit {adaptive}であり、\ textit {robust}である\ textit {adaptive}であるスペクトルメソッドを、ペナルティを受けた経験的リスク最小化方法と、外れ値のタスクに\ textit {robust}を提案します。
両方のアルゴリズムは、タスク全体の表現が十分に類似しており、外れ値のタスクの割合が小さい場合、シングルタスク学習よりも優れています。
さらに、表現が類似している場合でも、少なくともシングルタスク学習と同様に常に実行されます。
情報理論の下限を提供して、両方の方法が大規模なレジームではほぼ\ textit {minimax}が最適であり、外れ値のタスクがない場合にスペクトル法が最適であることを実証します。
さらに、未知の本質的な次元に適応するために、しきい値アルゴリズムを導入します。
理論的な調査結果を検証するために、広範な数値実験を実施します。
要約(オリジナル)
Representation multi-task learning (MTL) has achieved tremendous success in practice. However, the theoretical understanding of these methods is still lacking. Most existing theoretical works focus on cases where all tasks share the same representation, and claim that MTL almost always improves performance. Nevertheless, as the number of tasks grows, assuming all tasks share the same representation is unrealistic. Furthermore, empirical findings often indicate that a shared representation does not necessarily improve single-task learning performance. In this paper, we aim to understand how to learn from tasks with \textit{similar but not exactly the same} linear representations, while dealing with outlier tasks. Assuming a known intrinsic dimension, we propose a penalized empirical risk minimization method and a spectral method that are \textit{adaptive} to the similarity structure and \textit{robust} to outlier tasks. Both algorithms outperform single-task learning when representations across tasks are sufficiently similar and the proportion of outlier tasks is small. Moreover, they always perform at least as well as single-task learning, even when the representations are dissimilar. We provide information-theoretic lower bounds to demonstrate that both methods are nearly \textit{minimax} optimal in a large regime, with the spectral method being optimal in the absence of outlier tasks. Additionally, we introduce a thresholding algorithm to adapt to an unknown intrinsic dimension. We conduct extensive numerical experiments to validate our theoretical findings.
arxiv情報
著者 | Ye Tian,Yuqi Gu,Yang Feng |
発行日 | 2025-04-17 16:40:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google