「cs.LG」カテゴリーアーカイブ

MuLoCo: Muon is a practical inner optimizer for DiLoCo

投稿日: 2025年5月30日作成者: jarxiv

要約 Dilocoは、データセンターの設定で並列処理と加速器の利用を増やすための … 続きを読む →

カテゴリー: cs.LG | コメントを受け付けていません

EmotionRankCLAP: Bridging Natural Language Speaking Styles and Ordinal Speech Emotion via Rank-N-Contrast

投稿日: 2025年5月30日作成者: jarxiv

要約現在の感情に基づいた対照的な言語 – audio事前トレーニン … 続きを読む →

カテゴリー: cs.LG | コメントを受け付けていません

On the Convergence Analysis of Muon

投稿日: 2025年5月30日作成者: jarxiv

要約ニューラルネットワークのパラメーターの大部分は、自然にマトリックスとして表 … 続きを読む →

カテゴリー: cs.IT, cs.LG, math.IT, math.OC, stat.ML | コメントを受け付けていません

Distortion of AI Alignment: Does Preference Optimization Optimize for Preferences?

投稿日: 2025年5月30日作成者: jarxiv

要約トレーニング前の後、大規模な言語モデルは、ペアワイズ比較に基づいて人間の好 … 続きを読む →

カテゴリー: cs.GT, cs.LG | コメントを受け付けていません

Model Immunization from a Condition Number Perspective

投稿日: 2025年5月30日作成者: jarxiv

要約モデル予防接種の目的は、他の非耐性タスクで有用性を維持しながら、有害なタス … 続きを読む →

カテゴリー: cs.LG | コメントを受け付けていません

Fast Large Language Model Collaborative Decoding via Speculation

投稿日: 2025年5月30日作成者: jarxiv

要約大規模な言語モデル（LLM）コラボレーションデコード手法は、各世代のステッ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

LEXam: Benchmarking Legal Reasoning on 340 Law Exams

投稿日: 2025年5月30日作成者: jarxiv

要約テスト時間スケーリングの最近の進歩にもかかわらず、長い形式の法的推論は依然 … 続きを読む →

カテゴリー: 68T50, cs.AI, cs.CL, cs.LG, I.2 | コメントを受け付けていません

Segment Policy Optimization: Effective Segment-Level Credit Assignment in RL for Large Language Models

投稿日: 2025年5月30日作成者: jarxiv

要約強化学習（RL）を使用して効果的に大規模な言語モデルの推論能力を強化するこ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

On-Policy RL with Optimal Reward Baseline

投稿日: 2025年5月30日作成者: jarxiv

要約強化学習アルゴリズムは、大規模な言語モデルを人間の好みに合わせて、推論能力 … 続きを読む →

カテゴリー: cs.CL, cs.LG | コメントを受け付けていません

STeCa: Step-level Trajectory Calibration for LLM Agent Learning

投稿日: 2025年5月30日作成者: jarxiv

要約大規模な言語モデル（LLM）ベースのエージェントは、環境と動的に対話するこ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

「cs.LG」カテゴリーアーカイブ

MuLoCo: Muon is a practical inner optimizer for DiLoCo

EmotionRankCLAP: Bridging Natural Language Speaking Styles and Ordinal Speech Emotion via Rank-N-Contrast

On the Convergence Analysis of Muon

Distortion of AI Alignment: Does Preference Optimization Optimize for Preferences?

Model Immunization from a Condition Number Perspective

Fast Large Language Model Collaborative Decoding via Speculation

LEXam: Benchmarking Legal Reasoning on 340 Law Exams

Segment Policy Optimization: Effective Segment-Level Credit Assignment in RL for Large Language Models

On-Policy RL with Optimal Reward Baseline

STeCa: Step-level Trajectory Calibration for LLM Agent Learning

最近の投稿

最近のコメント

アーカイブ

カテゴリー