Metalearning with Very Few Samples Per Task

要約

メタルラーニングとマルチタスク学習は、個々のタスクを単独で解決するよりも効率的に、関連する学習タスクのグループを解決するための 2 つのフレームワークです。
マルチタスク学習では、関連する学習タスクの固定セットが与えられ、タスクごとに 1 つの正確なモデルを出力する必要がありますが、メタルラーニングでは、i.i.d. で描画されるタスクが与えられます。
メタディストリビューションから新しいタスクに簡単に特化できるいくつかの共通情報をメタディストリビューションから出力する必要があります。
この研究では、タスクが共有表現によって関連付けられるバイナリ分類設定を検討します。つまり、対象となるすべてのタスク $P$ は、$f_{P} \circ h$ という形式の分類子によって解決できます。ここで、$h
\in H$ は、タスク間で共有される特徴量から何らかの表現空間へのマップであり、 $f_{P} \in F$ は、表現空間からラベルまでのタスク固有の分類器です。
この作業で私たちが尋ねる主な質問は、適切な表現をメタルラーニングするためにどれくらいのデータが必要かということです。
ここで、データ量は、確認する必要があるタスクの数 $t$ とタスクごとのサンプル数 $n$ の両方の観点から測定されます。
タスクごとのサンプル数が非常に少ない領域に焦点を当てます。
主な結果は、特徴ベクトルが $\mathbb{R}^d$ にある分布フリーの設定では、表現が $\mathbb{R}^d \to \mathbb{R} の線形マップであることを示しています。
^k$ であり、タスク固有の分類子は $\mathbb{R}^k$ のハーフスペースです。タスクごとに $n = k+2$ サンプルだけを使用して、エラー $\varepsilon$ を含む表現をメタルアーンできます。
\cdot (1/\varepsilon)^{O(k)}$ タスク。
タスクあたり $k+1$ サンプルではメタル学習は不可能であり、タスクあたりわずか $k+2$ サンプルでは正確なタスク固有の分類器を学習することさえ期待できないため、タスクあたり非常に少ないサンプルで学習することは注目に値します。

要約(オリジナル)

Metalearning and multitask learning are two frameworks for solving a group of related learning tasks more efficiently than we could hope to solve each of the individual tasks on their own. In multitask learning, we are given a fixed set of related learning tasks and need to output one accurate model per task, whereas in metalearning we are given tasks that are drawn i.i.d. from a metadistribution and need to output some common information that can be easily specialized to new, previously unseen tasks from the metadistribution. In this work, we consider a binary classification setting where tasks are related by a shared representation, that is, every task $P$ of interest can be solved by a classifier of the form $f_{P} \circ h$ where $h \in H$ is a map from features to some representation space that is shared across tasks, and $f_{P} \in F$ is a task-specific classifier from the representation space to labels. The main question we ask in this work is how much data do we need to metalearn a good representation? Here, the amount of data is measured in terms of both the number of tasks $t$ that we need to see and the number of samples $n$ per task. We focus on the regime where the number of samples per task is extremely small. Our main result shows that, in a distribution-free setting where the feature vectors are in $\mathbb{R}^d$, the representation is a linear map from $\mathbb{R}^d \to \mathbb{R}^k$, and the task-specific classifiers are halfspaces in $\mathbb{R}^k$, we can metalearn a representation with error $\varepsilon$ using just $n = k+2$ samples per task, and $d \cdot (1/\varepsilon)^{O(k)}$ tasks. Learning with so few samples per task is remarkable because metalearning would be impossible with $k+1$ samples per task, and because we cannot even hope to learn an accurate task-specific classifier with just $k+2$ samples per task.

arxiv情報

著者 Maryam Aliakbarpour,Konstantina Bairaktari,Gavin Brown,Adam Smith,Jonathan Ullman
発行日 2023-12-21 16:06:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG パーマリンク