Pareto Low-Rank Adapters: Efficient Multi-Task Learning with Preferences

要約

機械学習におけるマルチタスクトレードオフは、単一のモデルでパレートフロント(PF)をパラメーター化するパレートフロントラーニング(PFL)メソッドを介して対処できます。
PFLは、トレーニング前に決定された単一のトレードオフを最適化する従来のマルチタスク学習(MTL)に反して、推論中に目的の運用ポイントを選択することを許可します。
ただし、最近のPFL方法論は、限られたスケーラビリティ、ゆっくりとした収束、および過度のメモリ要件に悩まされていますが、視点から客観的な空間への一貫性のないマッピングを示しています。
これらの制限に2つの方法で対処する新しいパラメーター効率の高い方法であるPaloraを紹介します。
まず、タスク固有の低ランクアダプターを使用してニューラルネットワークアーキテクチャを拡張し、凸式船体のPFを継続的にパラメーター化します。
私たちのアプローチは、それぞれ一般的なモデルとアダプターを一般的およびタスク固有の機能を学習することに向けて操作します。
第二に、この分業を強化する優先ベクターの決定論的なサンプリングスケジュールを提案し、トレーニングを通じてマッピングの妥当性をより速い収束させ、マッピングの妥当性を客観的空間への妥当性を強化することを提案します。
私たちの実験は、Paloraがさまざまなデータセットにわたって最先端のMTLおよびPFLベースラインを上回り、大規模なネットワークにスケーリングし、シーンのベンチマークを理解するシーンの競合するPFLベースラインと比較して、メモリオーバーヘッド$ 23.8-31.7 $の時間を削減することを示しています。

要約(オリジナル)

Multi-task trade-offs in machine learning can be addressed via Pareto Front Learning (PFL) methods that parameterize the Pareto Front (PF) with a single model. PFL permits to select the desired operational point during inference, contrary to traditional Multi-Task Learning (MTL) that optimizes for a single trade-off decided prior to training. However, recent PFL methodologies suffer from limited scalability, slow convergence, and excessive memory requirements, while exhibiting inconsistent mappings from preference to objective space. We introduce PaLoRA, a novel parameter-efficient method that addresses these limitations in two ways. First, we augment any neural network architecture with task-specific low-rank adapters and continuously parameterize the PF in their convex hull. Our approach steers the original model and the adapters towards learning general and task-specific features, respectively. Second, we propose a deterministic sampling schedule of preference vectors that reinforces this division of labor, enabling faster convergence and strengthening the validity of the mapping from preference to objective space throughout training. Our experiments show that PaLoRA outperforms state-of-the-art MTL and PFL baselines across various datasets, scales to large networks, reducing the memory overhead $23.8-31.7$ times compared with competing PFL baselines in scene understanding benchmarks.

arxiv情報

著者 Nikolaos Dimitriadis,Pascal Frossard,Francois Fleuret
発行日 2025-02-26 17:56:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク