cs.LG」カテゴリーアーカイブ

MuLoCo: Muon is a practical inner optimizer for DiLoCo

要約 Dilocoは、データセンターの設定で並列処理と加速器の利用を増やすための … 続きを読む

カテゴリー: cs.LG | MuLoCo: Muon is a practical inner optimizer for DiLoCo はコメントを受け付けていません

EmotionRankCLAP: Bridging Natural Language Speaking Styles and Ordinal Speech Emotion via Rank-N-Contrast

要約 現在の感情に基づいた対照的な言語 – audio事前トレーニン … 続きを読む

カテゴリー: cs.LG | EmotionRankCLAP: Bridging Natural Language Speaking Styles and Ordinal Speech Emotion via Rank-N-Contrast はコメントを受け付けていません

On the Convergence Analysis of Muon

要約 ニューラルネットワークのパラメーターの大部分は、自然にマトリックスとして表 … 続きを読む

カテゴリー: cs.IT, cs.LG, math.IT, math.OC, stat.ML | On the Convergence Analysis of Muon はコメントを受け付けていません

Distortion of AI Alignment: Does Preference Optimization Optimize for Preferences?

要約 トレーニング前の後、大規模な言語モデルは、ペアワイズ比較に基づいて人間の好 … 続きを読む

カテゴリー: cs.GT, cs.LG | Distortion of AI Alignment: Does Preference Optimization Optimize for Preferences? はコメントを受け付けていません

Model Immunization from a Condition Number Perspective

要約 モデル予防接種の目的は、他の非耐性タスクで有用性を維持しながら、有害なタス … 続きを読む

カテゴリー: cs.LG | Model Immunization from a Condition Number Perspective はコメントを受け付けていません

Fast Large Language Model Collaborative Decoding via Speculation

要約 大規模な言語モデル(LLM)コラボレーションデコード手法は、各世代のステッ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG | Fast Large Language Model Collaborative Decoding via Speculation はコメントを受け付けていません

LEXam: Benchmarking Legal Reasoning on 340 Law Exams

要約 テスト時間スケーリングの最近の進歩にもかかわらず、長い形式の法的推論は依然 … 続きを読む

カテゴリー: 68T50, cs.AI, cs.CL, cs.LG, I.2 | LEXam: Benchmarking Legal Reasoning on 340 Law Exams はコメントを受け付けていません

Segment Policy Optimization: Effective Segment-Level Credit Assignment in RL for Large Language Models

要約 強化学習(RL)を使用して効果的に大規模な言語モデルの推論能力を強化するこ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG | Segment Policy Optimization: Effective Segment-Level Credit Assignment in RL for Large Language Models はコメントを受け付けていません

On-Policy RL with Optimal Reward Baseline

要約 強化学習アルゴリズムは、大規模な言語モデルを人間の好みに合わせて、推論能力 … 続きを読む

カテゴリー: cs.CL, cs.LG | On-Policy RL with Optimal Reward Baseline はコメントを受け付けていません

STeCa: Step-level Trajectory Calibration for LLM Agent Learning

要約 大規模な言語モデル(LLM)ベースのエージェントは、環境と動的に対話するこ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG | STeCa: Step-level Trajectory Calibration for LLM Agent Learning はコメントを受け付けていません