On Inductive Biases for Machine Learning in Data Constrained Settings

要約

限られたデータで学習することは、機械学習の最大の問題の 1 つです。
この問題に対する現在のアプローチは、関心のある小さなデータセットでモデルを微調整する前に、膨大な量のデータから一般的な表現を学習することにあります。
このような技術、造語転移学習は、コンピューター ビジョンや自然言語処理などの分野では非常に効果的ですが、モデルの解釈可能性やデータの全体的な必要性など、ディープ ラーニングの一般的な問題はまだ解決されていません。
この論文では、データに制約のある設定で表現力のあるモデルを学習するという問題に対する別の答えを探ります。ニューラル ネットワークを学習するために大きなデータセットに頼る代わりに、データの構造を反映する既知の関数でいくつかのモジュールを置き換えます。
多くの場合、これらの関数はカーネル メソッドの豊富な文献から引き出されます。
実際、多くのカーネルはデータの基礎となる構造を反映できるため、学習パラメーターをある程度節約できます。
私たちのアプローチは、学習中に探索するモデ​​ルのスペースを制限する手元のデータに関する仮説として定義できる「誘導バイアス」のフードに該当します。
このアプローチの有効性を、自然言語の文章やタンパク質シーケンスなどのシーケンスのコンテキスト、および分子などのグラフで示します。
また、深層学習における私たちの研究と最近の進歩との関係についても強調します。
さらに、凸型機械学習モデルの研究も行っています。
ここでは、新しいモデルを提案するのではなく、「優れた」モデルを学習するために、データセット内のサンプルのどの割合が本当に必要かを考えています。
より正確には、安全なサンプルスクリーニングの問題、つまり、最適なモデルに影響を与えることなく、機械学習モデルを適合させる前であっても、データセットから有益でないサンプルを破棄する簡単なテストを実行する問題を研究します。
このような手法を使用して、データセットを整理したり、希少なサンプルを抽出したりできます。

要約(オリジナル)

Learning with limited data is one of the biggest problems of machine learning. Current approaches to this issue consist in learning general representations from huge amounts of data before fine-tuning the model on a small dataset of interest. While such technique, coined transfer learning, is very effective in domains such as computer vision or natural langage processing, it does not yet solve common problems of deep learning such as model interpretability or the overall need for data. This thesis explores a different answer to the problem of learning expressive models in data constrained settings: instead of relying on big datasets to learn neural networks, we will replace some modules by known functions reflecting the structure of the data. Very often, these functions will be drawn from the rich literature of kernel methods. Indeed, many kernels can reflect the underlying structure of the data, thus sparing learning parameters to some extent. Our approach falls under the hood of ‘inductive biases’, which can be defined as hypothesis on the data at hand restricting the space of models to explore during learning. We demonstrate the effectiveness of this approach in the context of sequences, such as sentences in natural language or protein sequences, and graphs, such as molecules. We also highlight the relationship between our work and recent advances in deep learning. Additionally, we study convex machine learning models. Here, rather than proposing new models, we wonder which proportion of the samples in a dataset is really needed to learn a ‘good’ model. More precisely, we study the problem of safe sample screening, i.e, executing simple tests to discard uninformative samples from a dataset even before fitting a machine learning model, without affecting the optimal model. Such techniques can be used to prune datasets or mine for rare samples.

arxiv情報

著者 Grégoire Mialon
発行日 2023-02-21 14:22:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク