「cs.LG」カテゴリーアーカイブ

DEPT: Decoupled Embeddings for Pre-training Language Models

投稿日: 2025年4月8日作成者: jarxiv

要約言語モデルのプリトレーニングでは、幅広いデータ混合物を使用して、ドメインと … 続きを読む →

カテゴリー: cs.CL, cs.LG | コメントを受け付けていません

Can RLHF be More Efficient with Imperfect Reward Models? A Policy Coverage Perspective

投稿日: 2025年4月8日作成者: jarxiv

要約サンプルの効率は、人間のフィードバック（RLHF）からのオンライン強化学習 … 続きを読む →

カテゴリー: cs.AI, cs.LG, stat.ML | コメントを受け付けていません

SpeakEasy: Enhancing Text-to-Speech Interactions for Expressive Content Creation

投稿日: 2025年4月8日作成者: jarxiv

要約初心者のコンテンツクリエイターは、多くの場合、ソーシャルメディアビデオの表 … 続きを読む →

カテゴリー: cs.AI, cs.HC, cs.LG | コメントを受け付けていません

Algorithm Discovery With LLMs: Evolutionary Search Meets Reinforcement Learning

投稿日: 2025年4月8日作成者: jarxiv

要約複雑な問題を解決するための効率的なアルゴリズムを発見することは、数学とコン … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.NE | コメントを受け付けていません

The Right Time Matters: Data Arrangement Affects Zero-Shot Generalization in Instruction Tuning

投稿日: 2025年4月8日作成者: jarxiv

要約アライメントテクニックの理解は、指導の調整によってもたらされるゼロショット … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

Interpretable Style Takagi-Sugeno-Kang Fuzzy Clustering

投稿日: 2025年4月8日作成者: jarxiv

要約クラスタリングは、データの潜在的な知識を調査するための効率的で不可欠な手法 … 続きを読む →

カテゴリー: cs.AI, cs.LG | コメントを受け付けていません

A Reinforcement Learning Method for Environments with Stochastic Variables: Post-Decision Proximal Policy Optimization with Dual Critic Networks

投稿日: 2025年4月8日作成者: jarxiv

要約この論文では、主要な深部補強学習方法の新しいバリエーションである近位政策最 … 続きを読む →

カテゴリー: cs.AI, cs.LG, G.1.6 | コメントを受け付けていません

Addressing Label Leakage in Knowledge Tracing Models

投稿日: 2025年4月8日作成者: jarxiv

要約知識トレース（KT）は、インテリジェントな個別指導システムの学習項目に関す … 続きを読む →

カテゴリー: cs.AI, cs.CY, cs.LG | コメントを受け付けていません

RLBayes: a Bayesian Network Structure Learning Algorithm via Reinforcement Learning-Based Search Strategy

投稿日: 2025年4月8日作成者: jarxiv

要約ベイジアンネットワーク（BN）のスコアベースの構造学習は、BNモデルを学習 … 続きを読む →

カテゴリー: cs.AI, cs.LG | コメントを受け付けていません

Attention-Based Multi-Scale Temporal Fusion Network for Uncertain-Mode Fault Diagnosis in Multimode Processes

投稿日: 2025年4月8日作成者: jarxiv

要約マルチモードプロセスにおける障害診断は、複数のモードで産業システムの安全な … 続きを読む →

カテゴリー: cs.AI, cs.LG | コメントを受け付けていません

「cs.LG」カテゴリーアーカイブ

DEPT: Decoupled Embeddings for Pre-training Language Models

Can RLHF be More Efficient with Imperfect Reward Models? A Policy Coverage Perspective

SpeakEasy: Enhancing Text-to-Speech Interactions for Expressive Content Creation

Algorithm Discovery With LLMs: Evolutionary Search Meets Reinforcement Learning

The Right Time Matters: Data Arrangement Affects Zero-Shot Generalization in Instruction Tuning

Interpretable Style Takagi-Sugeno-Kang Fuzzy Clustering

A Reinforcement Learning Method for Environments with Stochastic Variables: Post-Decision Proximal Policy Optimization with Dual Critic Networks

Addressing Label Leakage in Knowledge Tracing Models

RLBayes: a Bayesian Network Structure Learning Algorithm via Reinforcement Learning-Based Search Strategy

Attention-Based Multi-Scale Temporal Fusion Network for Uncertain-Mode Fault Diagnosis in Multimode Processes

最近の投稿

最近のコメント

アーカイブ

カテゴリー