Understanding Self-Supervised Learning via Gaussian Mixture Models

要約

自己学習学習は、非研究データから表現を学習しようとします。
これは、ポイントの埋め込みがその増強の埋め込みに近いことを奨励する損失関数を介して行います。
このシンプルなアイデアは非常にうまく機能しますが、なぜこれが当てはまるのか、理論的には正確には理解されていません。
この論文では、自然な文脈で自己監視された学習を分析します。ガウス混合モデルの次元削減です。
重要なことに、データポイントの増強を、同じ基礎となる混合成分からの別の独立した引き分けとして定義します。
バニラのコントラスト学習(具体的には、infonceの損失)は、ガウスが等方性ではない場合でも、最適な低次元サブスペースを見つけることができることを示しています。
また、「非矛盾」の自己監視学習(つまり、Simsiamの損失)についても同様の結果を証明しています。
さらに、分析をマルチモーダルコントラスト学習アルゴリズム(たとえば、クリップ)に拡張します。
この設定では、対照的な学習がフィッシャーオプティマルサブスペースのサブセットを学習し、学習した表現からのすべてのノイズを効果的に除外することを示します。
最後に、合成データ実験を通じて理論的発見を裏付けています。

要約(オリジナル)

Self-supervised learning attempts to learn representations from un-labeled data; it does so via a loss function that encourages the embedding of a point to be close to that of its augmentations. This simple idea performs remarkably well, yet it is not precisely theoretically understood why this is the case. In this paper we analyze self-supervised learning in a natural context: dimensionality reduction in Gaussian Mixture Models. Crucially, we define an augmentation of a data point as being another independent draw from the same underlying mixture component. We show that vanilla contrastive learning (specifically, the InfoNCE loss) is able to find the optimal lower-dimensional subspace even when the Gaussians are not isotropic — something that vanilla spectral techniques cannot do. We also prove a similar result for ‘non-contrastive’ self-supervised learning (i.e., SimSiam loss). We further extend our analyses to multi-modal contrastive learning algorithms (e.g., CLIP). In this setting we show that contrastive learning learns the subset of fisher-optimal subspace, effectively filtering out all the noise from the learnt representations. Finally, we corroborate our theoretical finding through synthetic data experiments.

arxiv情報

著者 Parikshit Bansal,Ali Kavis,Sujay Sanghavi
発行日 2025-02-06 18:48:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Understanding Self-Supervised Learning via Gaussian Mixture Models はコメントを受け付けていません

Targeted Learning for Data Fairness

要約

データとアルゴリズムは、差別を生み出し、永続させ、異なる治療を永続させる可能性があります。
そのため、アルゴリズムの不公平な結果を定義、検出、排除するアプローチの開発に多大な努力が投資されてきました。
この論文では、公平性のために統計的推論の実行に焦点を当てています。
公平性の推論における以前の研究は、主に特定の予測アルゴリズムの公平性の特性の推測に焦点を当てています。
ここでは、ここではデータの公平性と呼ばれるデータ生成プロセス自体の公平性を評価することにより、公平性推論を拡大します。
ノンパラメトリック推論のための柔軟なフレームワークであるターゲット学習を使用して、データ公平性に関する推論を実行します。
推定器の人口統計パリティ、平等な機会、および条件付き相互情報を導き出します。
さらに、確率的指標の推定量は二重の堅牢性を活用していることがわかります。
アプローチを検証するために、いくつかのシミュレーションを実行し、推定器を実際のデータに適用します。

要約(オリジナル)

Data and algorithms have the potential to produce and perpetuate discrimination and disparate treatment. As such, significant effort has been invested in developing approaches to defining, detecting, and eliminating unfair outcomes in algorithms. In this paper, we focus on performing statistical inference for fairness. Prior work in fairness inference has largely focused on inferring the fairness properties of a given predictive algorithm. Here, we expand fairness inference by evaluating fairness in the data generating process itself, referred to here as data fairness. We perform inference on data fairness using targeted learning, a flexible framework for nonparametric inference. We derive estimators demographic parity, equal opportunity, and conditional mutual information. Additionally, we find that our estimators for probabilistic metrics exploit double robustness. To validate our approach, we perform several simulations and apply our estimators to real data.

arxiv情報

著者 Alexander Asemota,Giles Hooker
発行日 2025-02-06 18:51:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Targeted Learning for Data Fairness はコメントを受け付けていません

Finding Pegasus: Enhancing Unsupervised Anomaly Detection in High-Dimensional Data using a Manifold-Based Approach

要約

監視されていない機械学習方法は、大規模な異常を検索するのに適していますが、多くの最新のデータセットの高次元表現に苦労する可能性があるため、次元削減(DR)が最初に実行されることがよくあります。
この論文では、DRで作成された多様体の観点から、監視されていない異常検出(AD)を分析します。
理想的なイラスト「Finding Pegasus」と、ADメソッドとその結果を「マニホールド」と「マニホールドオフ」に分類する新しい正式なフレームワークを提示します。
これらの用語を定義し、それらがどのように異なるかを示します。
次に、この洞察を使用して、高DRを使用して状況で精度を犠牲にすることなく、ADリコールを大幅に向上させるADメソッドを組み合わせるアプローチを開発します。
MNISTデータでテストされた場合、ADメソッドを組み合わせるアプローチは、最高のスタンドアロンADメソッド(Isolation Forest)と組み合わせることと比較して、リコールを最大16%改善します。

要約(オリジナル)

Unsupervised machine learning methods are well suited to searching for anomalies at scale but can struggle with the high-dimensional representation of many modern datasets, hence dimensionality reduction (DR) is often performed first. In this paper we analyse unsupervised anomaly detection (AD) from the perspective of the manifold created in DR. We present an idealised illustration, ‘Finding Pegasus’, and a novel formal framework with which we categorise AD methods and their results into ‘on manifold’ and ‘off manifold’. We define these terms and show how they differ. We then use this insight to develop an approach of combining AD methods which significantly boosts AD recall without sacrificing precision in situations employing high DR. When tested on MNIST data, our approach of combining AD methods improves recall by as much as 16 percent compared with simply combining with the best standalone AD method (Isolation Forest), a result which shows great promise for its application to real-world data.

arxiv情報

著者 R. P. Nathan,Nikolaos Nikolaou,Ofer Lahav
発行日 2025-02-06 18:53:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Finding Pegasus: Enhancing Unsupervised Anomaly Detection in High-Dimensional Data using a Manifold-Based Approach はコメントを受け付けていません

Conformal Risk Minimization with Variance Reduction

要約

コンフォーマル予測(CP)は、ブラックボックスモデルで確率的保証を達成するための分布フリーフレームワークです。
CPは通常、トレーニング後のモデルに適用されます。
一方、最近の研究では、トレーニング中のCP効率の最適化に焦点を当てています。
この概念を、コンフォーマルリスク最小化(CRM)の問題として形式化します。
この方向では、Stutz et al。(2022)によるコンフォーマルトレーニング(Conptr)は、トレーニングの更新の間でCPをシミュレートすることにより、モデルの予想される予測セットサイズを最小限に抑えようとする手法です。
その可能性にもかかわらず、私たちは、過度にうるさく推定された勾配につながり、トレーニングの不安定性を導入し、実用的な使用を制限する、conptrのサンプルの非効率性の強力なソースを特定します。
この課題に対処するために、conptrの目的関数の勾配推定に分散削減手法を組み込んだCRMメソッドである分散還元コンフォーマルトレーニング(VR-CONFTR)を提案します。
さまざまなベンチマークデータセットでの広範な実験を通じて、VR-CONFTRがベースラインと比較してより速い収束とより小さな予測セットを常に達成することを実証します。

要約(オリジナル)

Conformal prediction (CP) is a distribution-free framework for achieving probabilistic guarantees on black-box models. CP is generally applied to a model post-training. Recent research efforts, on the other hand, have focused on optimizing CP efficiency during training. We formalize this concept as the problem of conformal risk minimization (CRM). In this direction, conformal training (ConfTr) by Stutz et al.(2022) is a technique that seeks to minimize the expected prediction set size of a model by simulating CP in-between training updates. Despite its potential, we identify a strong source of sample inefficiency in ConfTr that leads to overly noisy estimated gradients, introducing training instability and limiting practical use. To address this challenge, we propose variance-reduced conformal training (VR-ConfTr), a CRM method that incorporates a variance reduction technique in the gradient estimation of the ConfTr objective function. Through extensive experiments on various benchmark datasets, we demonstrate that VR-ConfTr consistently achieves faster convergence and smaller prediction sets compared to baselines.

arxiv情報

著者 Sima Noorani,Orlando Romero,Nicolo Dal Fabbro,Hamed Hassani,George J. Pappas
発行日 2025-02-06 18:55:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Conformal Risk Minimization with Variance Reduction はコメントを受け付けていません

Consistency of augmentation graph and network approximability in contrastive learning

要約

対照学習は、データ増強を活用して、大きなラベル付きデータセットに依存せずに特徴表現を開発します。
しかし、その経験的な成功にもかかわらず、対照学習の理論的基礎は不完全なままであり、多くの本質的な保証は、特に最適なスペクトル対照喪失解の神経近似性に関する実現可能性の仮定を残しました。
この作業では、増強グラフLaplacianの点ごととスペクトルの一貫性を分析することにより、これらの制限を克服します。
データ生成とグラフ接続のための特定の条件下で、増強されたデータセットサイズが増加するにつれて、ラプラシアンの増強グラフは、天然データマニホールドの加重ラプラスベルトラミ演算子に収束することを確立します。
これらの一貫性の結果により、グラフラプラシアンスペクトルがマニホールドジオメトリを効果的にキャプチャすることが保証されます。
その結果、それらは、現在のパラダイムでの実現可能性の仮定を直接解決し、神経近似性を確立するための堅牢なフレームワークに道を譲ります。

要約(オリジナル)

Contrastive learning leverages data augmentation to develop feature representation without relying on large labeled datasets. However, despite its empirical success, the theoretical foundations of contrastive learning remain incomplete, with many essential guarantees left unaddressed, particularly the realizability assumption concerning neural approximability of an optimal spectral contrastive loss solution. In this work, we overcome these limitations by analyzing the pointwise and spectral consistency of the augmentation graph Laplacian. We establish that, under specific conditions for data generation and graph connectivity, as the augmented dataset size increases, the augmentation graph Laplacian converges to a weighted Laplace-Beltrami operator on the natural data manifold. These consistency results ensure that the graph Laplacian spectrum effectively captures the manifold geometry. Consequently, they give way to a robust framework for establishing neural approximability, directly resolving the realizability assumption in a current paradigm.

arxiv情報

著者 Chenghui Li,A. Martina Neuman
発行日 2025-02-06 18:55:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.AP, math.SP | Consistency of augmentation graph and network approximability in contrastive learning はコメントを受け付けていません

The Uniformly Rotated Mondrian Kernel

要約

RahimiとRechtによって最初に提案されたランダム機能は、大規模な問題でカーネルマシンの計算コストを削減するために使用されます。
Mondrian Kernelは、Mondrian Processとして知られる入力空間の計算効率的な階層ランダムパーティションによって生成されるラプラスカーネルの高速ランダムフィーチャ近似のそのような例です。
この作業では、均一にランダムに回転したモンドリアンプロセスを使用して、回転下で不変のカーネルを近似することにより、このランダム機能マップのバリエーションを研究します。
この等方性カーネルの閉じた型式を取得し、均一に回転したモンドリアンカーネルの均一な収束速度をこの制限にします。
この目的のために、確率形成ジオメトリにおける定常ランダムテッセレーションの理論からのテクニックを利用し、モンドリアのテッセレーションの均一にランダムな回転の重ね合わせの典型的な細胞のジオメトリに新しい結果を証明します。
最後に、合成データセットと現実世界の両方のデータセットの両方でこのランダム機能マップの経験的パフォーマンスをテストし、紛争データセットでMondrianカーネル上のパフォーマンスの向上を示します。

要約(オリジナル)

First proposed by Rahimi and Recht, random features are used to decrease the computational cost of kernel machines in large-scale problems. The Mondrian kernel is one such example of a fast random feature approximation of the Laplace kernel, generated by a computationally efficient hierarchical random partition of the input space known as the Mondrian process. In this work, we study a variation of this random feature map by using uniformly randomly rotated Mondrian processes to approximate a kernel that is invariant under rotations. We obtain a closed-form expression for this isotropic kernel, as well as a uniform convergence rate of the uniformly rotated Mondrian kernel to this limit. To this end, we utilize techniques from the theory of stationary random tessellations in stochastic geometry and prove a new result on the geometry of the typical cell of the superposition of uniformly random rotations of Mondrian tessellations. Finally, we test the empirical performance of this random feature map on both synthetic and real-world datasets, demonstrating its improved performance over the Mondrian kernel on a debiased dataset.

arxiv情報

著者 Calvin Osborne,Eliza O’Reilly
発行日 2025-02-06 18:59:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.PR | The Uniformly Rotated Mondrian Kernel はコメントを受け付けていません

Value-Based Deep RL Scales Predictably

要約

データと計算のスケーリングは、機械学習の成功にとって重要です。
ただし、スケーリングには予測可能性が需要があります。メソッドは、より多くのコンピューティングまたはデータでうまく機能するだけでなく、大規模な実験を実行せずに、小規模な実行からパフォーマンスを予測可能にすることも望ましいです。
この論文では、価値ベースのオフポリティRLメソッドが、彼らの病理学的行動に関するコミュニティの伝承にもかかわらず、予測可能であることを示します。
まず、特定のパフォーマンスレベルを達成するためのデータと計算要件は、Paretoフロンティアに嘘をついていることを示しています。
このフロンティアを推定することにより、より多くの計算が与えられたときにこのデータ要件を予測できます。また、より多くのデータが与えられた場合は、この計算要件を予測できます。
第二に、データ間での総リソース予算の最適な割り当てを決定し、特定のパフォーマンスを計算し、それを使用して、特定の予算のパフォーマンスを最大化するハイパーパラメーターを決定します。
第三に、このスケーリング動作は、最初にハイパーパラメーター間の予測可能な関係を推定することにより有効になります。これは、RLに固有の過剰適合および可塑性損失の効果を管理するために使用されます。
Deepmind Control、Openai Gym、およびIsaacgymのSAC、BRO、およびPQLの3つのアルゴリズムを使用してアプローチを検証します。

要約(オリジナル)

Scaling data and compute is critical to the success of machine learning. However, scaling demands predictability: we want methods to not only perform well with more compute or data, but also have their performance be predictable from small-scale runs, without running the large-scale experiment. In this paper, we show that value-based off-policy RL methods are predictable despite community lore regarding their pathological behavior. First, we show that data and compute requirements to attain a given performance level lie on a Pareto frontier, controlled by the updates-to-data (UTD) ratio. By estimating this frontier, we can predict this data requirement when given more compute, and this compute requirement when given more data. Second, we determine the optimal allocation of a total resource budget across data and compute for a given performance and use it to determine hyperparameters that maximize performance for a given budget. Third, this scaling behavior is enabled by first estimating predictable relationships between hyperparameters, which is used to manage effects of overfitting and plasticity loss unique to RL. We validate our approach using three algorithms: SAC, BRO, and PQL on DeepMind Control, OpenAI gym, and IsaacGym, when extrapolating to higher levels of data, compute, budget, or performance.

arxiv情報

著者 Oleh Rybkin,Michal Nauman,Preston Fu,Charlie Snell,Pieter Abbeel,Sergey Levine,Aviral Kumar
発行日 2025-02-06 18:59:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Value-Based Deep RL Scales Predictably はコメントを受け付けていません

Long-context Language Models Are Not Good At ALL Retrieval Tasks Without Sufficient Steps

要約

広範なコンテキストウィンドウを特徴とする長い文字モデル(LCLMS)が人気を博しています。
ただし、標準の長いコンテキスト検索タスクでほぼ完璧であるにもかかわらず、私たちの評価は、LCLMSの能力境界を超えている2つの基本的なケース「マルチマッチング検索」および「ロジックベースの検索」では得意ではないことを示しています。
しかし、特定のCOTプロンプトに導かれた十分な数の推論ステップで適切に対処できることがわかります。これは、より高度な長いコンテキスト処理のために長いコンテキストタスクとCOTメソッドを組み合わせる必要性を示しています。
ただし、コンテキストが非常に長い場合、現在のCOTメソッドは時間がかかりすぎます。これは、効率的な長いコンテキスト処理にはまだ長い道のりがあります。

要約(オリジナル)

Long-context language models (LCLMs), characterized by their extensive context window, are becoming popular. However, despite they are nearly perfect at standard long-context retrieval tasks, our evaluations demonstrate they are not good at 2 basic cases, ‘multi-matching retrieval,’ and ‘logic-based retrieval’, which are beyond LCLMs’ ability boundary. But we find they can be well addressed with a sufficient number of reasoning steps, guided by specific CoT prompts, indicating the necessity of combining long-context tasks with CoT methods for more advanced long context handling. However, current CoT methods are too time-consuming, when the context is very long, which means efficient long-context handling still has a long way to go.

arxiv情報

著者 Yijiong Yu,Ma Xiufa,Fang Jianwei,Zhi Xu,Su Guangyao,Wang Jiancheng,Yongfeng Huang,Zhixiao Qi,Wei Wang,Weifeng Liu,Ran Chen,Ji Pei
発行日 2025-02-06 11:56:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Long-context Language Models Are Not Good At ALL Retrieval Tasks Without Sufficient Steps はコメントを受け付けていません

MIDAS: Multi-level Intent, Domain, And Slot Knowledge Distillation for Multi-turn NLU

要約

大規模な言語モデル(LLM)はコヒーレントで文脈的に関連するテキストを生成できますが、人間のユーザーのクエリの背後にある意図を認識するのに苦労しています。
ただし、自然言語理解(NLU)モデルは、ユーザーの入力の目的と重要な情報を解釈して、応答性のある相互作用を可能にします。
既存のNLUモデルは、一般に、個々の発話をデュアルレベルのセマンティックフレームにマッピングし、文レベルの意図と単語レベルのスロットラベルを含みます。
ただし、実際の会話は、主に複雑な対話と拡張された対話の解釈を含む多ターン会話で構成されています。
研究者は、統一されたシングルNLUモデルを使用して、マルチターンダイアログの会話のすべての側面に対処する課題に遭遇します。
このペーパーでは、マルチレベルの意図、ドメイン、およびマルチターンNLUのスロット知識蒸留を活用する新しいアプローチ、MIDASを紹介します。
これを達成するために、さまざまなレベルの会話知識、すなわち文レベルの意図検出、単語レベルのスロットフィリング、および会話レベルのドメイン分類のために、異なる教師を構築します。
これらの教師は、指定されたレベルの特定の知識を獲得するために微調整されます。
これらのマルチレベルの教師の組み合わせを促進し、マルチターンダイアログタスクで学生モデルを導くために、マルチティーチャーの損失が提案されています。
実験結果は、マルチレベルの対話知識蒸留技術の組み込みを通じてNLUモデルの進歩の可能性を示す、全体的なマルチターン会話理解を改善する際のモデルの有効性を示しています。

要約(オリジナル)

Although Large Language Models(LLMs) can generate coherent and contextually relevant text, they often struggle to recognise the intent behind the human user’s query. Natural Language Understanding (NLU) models, however, interpret the purpose and key information of user’s input to enable responsive interactions. Existing NLU models generally map individual utterances to a dual-level semantic frame, involving sentence-level intent and word-level slot labels. However, real-life conversations primarily consist of multi-turn conversations, involving the interpretation of complex and extended dialogues. Researchers encounter challenges addressing all facets of multi-turn dialogue conversations using a unified single NLU model. This paper introduces a novel approach, MIDAS, leveraging a multi-level intent, domain, and slot knowledge distillation for multi-turn NLU. To achieve this, we construct distinct teachers for varying levels of conversation knowledge, namely, sentence-level intent detection, word-level slot filling, and conversation-level domain classification. These teachers are then fine-tuned to acquire specific knowledge of their designated levels. A multi-teacher loss is proposed to facilitate the combination of these multi-level teachers, guiding a student model in multi-turn dialogue tasks. The experimental results demonstrate the efficacy of our model in improving the overall multi-turn conversation understanding, showcasing the potential for advancements in NLU models through the incorporation of multi-level dialogue knowledge distillation techniques.

arxiv情報

著者 Yan Li,So-Eon Kim,Seong-Bae Park,Soyeon Caren Han
発行日 2025-02-06 11:56:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MIDAS: Multi-level Intent, Domain, And Slot Knowledge Distillation for Multi-turn NLU はコメントを受け付けていません

PIKE-RAG: sPecIalized KnowledgE and Rationale Augmented Generation

要約

外部検索を通じて大規模な言語モデル(LLM)機能を拡張する検索総生成(RAG)システムの顕著な進歩にもかかわらず、これらのシステムは、実世界の産業用アプリケーションの複雑で多様なニーズを満たすのに苦労しています。
検索だけでの依存は、専門のコーパスからの論理的推論で行われる深いドメイン固有の知識を抽出するには不十分であることがわかります。
これに対処するために、専門的な知識と根拠の増強生成(Pike-rag)を紹介し、専門知識の抽出、理解、および適用に焦点を当て、正確な応答に向けてLLMSを徐々に導くための一貫した根拠を構築します。
産業用タスクの多様な課題を認識して、知識の抽出とアプリケーションの複雑さに基づいてタスクを分類する新しいパラダイムを導入し、RAGシステムの問題解決機能の体系的な評価を可能にします。
この戦略的アプローチは、産業用途の進化する需要を満たすために調整された段階的な開発とRAGシステムの強化のためのロードマップを提供します。
さらに、データチャンクから多面的な知識を効果的に抽出し、それぞれ元のクエリと蓄積された知識に基づいて、さまざまなベンチマークにわたって並外れたパフォーマンスを示すために、知識と知識を意識したタスク分解を提案し、それぞれ元のクエリと蓄積された知識に基づいて理論的根拠を繰り返し構築します。

要約(オリジナル)

Despite notable advancements in Retrieval-Augmented Generation (RAG) systems that expand large language model (LLM) capabilities through external retrieval, these systems often struggle to meet the complex and diverse needs of real-world industrial applications. The reliance on retrieval alone proves insufficient for extracting deep, domain-specific knowledge performing in logical reasoning from specialized corpora. To address this, we introduce sPecIalized KnowledgE and Rationale Augmentation Generation (PIKE-RAG), focusing on extracting, understanding, and applying specialized knowledge, while constructing coherent rationale to incrementally steer LLMs toward accurate responses. Recognizing the diverse challenges of industrial tasks, we introduce a new paradigm that classifies tasks based on their complexity in knowledge extraction and application, allowing for a systematic evaluation of RAG systems’ problem-solving capabilities. This strategic approach offers a roadmap for the phased development and enhancement of RAG systems, tailored to meet the evolving demands of industrial applications. Furthermore, we propose knowledge atomizing and knowledge-aware task decomposition to effectively extract multifaceted knowledge from the data chunks and iteratively construct the rationale based on original query and the accumulated knowledge, respectively, showcasing exceptional performance across various benchmarks.

arxiv情報

著者 Jinyu Wang,Jingjing Fu,Rui Wang,Lei Song,Jiang Bian
発行日 2025-02-06 12:17:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | PIKE-RAG: sPecIalized KnowledgE and Rationale Augmented Generation はコメントを受け付けていません