Universalizing Weak Supervision

要約

弱い監視 (WS) フレームワークは、データを大量に消費するモデルをトレーニングするための大規模なデータセットの手作業によるラベル付けをバイパスする一般的な方法です。
これらのアプローチは、ノイズは多いが安価に取得されたラベルの複数の推定値を合成して、下流のトレーニング用の高品質の擬似ラベルのセットを作成します。
ただし、合成手法はバイナリ ラベルやシーケンスなどの特定の種類のラベルに固有であり、新しいラベル タイプごとに新しい合成アルゴリズムを手動で設計する必要があります。
その代わりに、実用的な柔軟性、計算効率、理論的保証などの望ましい特性を提供しながら、あらゆるラベル タイプに対する弱い監視を可能にする普遍的な技術を提案します。
私たちはこの手法を、ランク付けの学習、回帰、双曲空間での学習など、これまで WS フレームワークでは取り組まれなかった重要な問題に適用します。
理論的には、私たちの合成アプローチは、指数関数族モデルのいくつかの困難だが重要な一般化を学習するための一貫した推定量を生成します。
私たちは実験的にフレームワークを検証し、実際のランク付け学習や回帰問題、双曲多様体での学習など、さまざまな設定でベースラインを超える改善を示しました。

要約(オリジナル)

Weak supervision (WS) frameworks are a popular way to bypass hand-labeling large datasets for training data-hungry models. These approaches synthesize multiple noisy but cheaply-acquired estimates of labels into a set of high-quality pseudolabels for downstream training. However, the synthesis technique is specific to a particular kind of label, such as binary labels or sequences, and each new label type requires manually designing a new synthesis algorithm. Instead, we propose a universal technique that enables weak supervision over any label type while still offering desirable properties, including practical flexibility, computational efficiency, and theoretical guarantees. We apply this technique to important problems previously not tackled by WS frameworks including learning to rank, regression, and learning in hyperbolic space. Theoretically, our synthesis approach produces a consistent estimators for learning some challenging but important generalizations of the exponential family model. Experimentally, we validate our framework and show improvement over baselines in diverse settings including real-world learning-to-rank and regression problems along with learning on hyperbolic manifolds.

arxiv情報

著者 Changho Shin,Winfred Li,Harit Vishwakarma,Nicholas Roberts,Frederic Sala
発行日 2023-11-29 18:11:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク