Challenges and Opportunities of Using Transformer-Based Multi-Task Learning in NLP Through ML Lifecycle: A Survey

要約

業界全体で自然言語処理 (NLP) モデルの採用が増加しているため、実務者は、トレーニングから本番環境での提供まで、これらのモデルを効率的に処理するための機械学習システムを必要としています。
ただし、複数のモデルのトレーニング、デプロイ、更新は、主にトランスフォーマーベースの事前トレーニング済み言語モデルを使用する場合、複雑でコストがかかり、時間がかかる可能性があります。
マルチタスク学習 (MTL) は、個別のモデルをトレーニングするのではなく、共同トレーニングを通じて効率とパフォーマンスを向上させる有望なアプローチとして浮上しています。
これを動機として、最初に NLP におけるトランスフォーマーベースの MTL アプローチの概要を説明します。
次に、典型的な ML ライフサイクル フェーズ全体で MTL アプローチを使用する際の課題と機会について、特にデータ エンジニアリング、モデル開発、展開、監視フェーズに関連する課題に焦点を当てて説明します。
この調査はトランスフォーマー ベースの MTL アーキテクチャに焦点を当てており、私たちの知る限りでは、NLP におけるトランスフォーマー ベースの MTL が ML ライフサイクル フェーズにどのように適合するかを系統的に分析している点で斬新です。
さらに、MTL と継続学習 (CL) の関係については未開拓の領域であるため、研究を推進しています。
MTL と CL の両方を処理できるモデルを用意することが現実的であると考えています。これにより、モデルの定期的な再トレーニング、配布の変更による更新、現実世界の要件を満たすための新しい機能の追加が容易になるからです。

要約(オリジナル)

The increasing adoption of natural language processing (NLP) models across industries has led to practitioners’ need for machine learning systems to handle these models efficiently, from training to serving them in production. However, training, deploying, and updating multiple models can be complex, costly, and time-consuming, mainly when using transformer-based pre-trained language models. Multi-Task Learning (MTL) has emerged as a promising approach to improve efficiency and performance through joint training, rather than training separate models. Motivated by this, we first provide an overview of transformer-based MTL approaches in NLP. Then, we discuss the challenges and opportunities of using MTL approaches throughout typical ML lifecycle phases, specifically focusing on the challenges related to data engineering, model development, deployment, and monitoring phases. This survey focuses on transformer-based MTL architectures and, to the best of our knowledge, is novel in that it systematically analyses how transformer-based MTL in NLP fits into ML lifecycle phases. Furthermore, we motivate research on the connection between MTL and continual learning (CL), as this area remains unexplored. We believe it would be practical to have a model that can handle both MTL and CL, as this would make it easier to periodically re-train the model, update it due to distribution shifts, and add new capabilities to meet real-world requirements.

arxiv情報

著者 Lovre Torbarina,Tin Ferkovic,Lukasz Roguski,Velimir Mihelcic,Bruno Sarlija,Zeljko Kraljevic
発行日 2023-08-16 09:11:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク