「cs.LG」カテゴリーアーカイブ

Sample Efficient Reinforcement Learning from Human Feedback via Active Exploration

投稿日: 2025年3月20日作成者: jarxiv

要約嗜好ベースのフィードバックは、報酬機能の評価が実行不可能な機械学習における … 続きを読む →

カテゴリー: cs.AI, cs.LG, stat.ML | コメントを受け付けていません

The Impact of Input Order Bias on Large Language Models for Software Fault Localization

投稿日: 2025年3月20日作成者: jarxiv

要約大規模な言語モデル（LLM）は、障害ローカリゼーション（FL）や自動プログ … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.SE | コメントを受け付けていません

Predictable Scale: Part I — Optimal Hyperparameter Scaling Law in Large Language Model Pretraining

投稿日: 2025年3月20日作成者: jarxiv

要約多様なタスクにわたる大規模な言語モデル（LLM）の印象的な機能は現在確立さ … 続きを読む →

カテゴリー: cs.AI, cs.LG, F.2.2 | コメントを受け付けていません

dFLMoE: Decentralized Federated Learning via Mixture of Experts for Medical Data Analysis

投稿日: 2025年3月20日作成者: jarxiv

要約 Federated Learningは、医療分野で幅広い用途を持っています … 続きを読む →

カテゴリー: cs.AI, cs.LG | コメントを受け付けていません

Subversion Strategy Eval: Can language models statelessly strategize to subvert control protocols?

投稿日: 2025年3月20日作成者: jarxiv

要約 AIコントロールプロトコルは、AIが意図的に何らかの容認できない結果を引き … 続きを読む →

カテゴリー: cs.AI, cs.LG | コメントを受け付けていません

Probabilities of Chat LLMs Are Miscalibrated but Still Predict Correctness on Multiple-Choice Q&A

投稿日: 2025年3月20日作成者: jarxiv

要約チャット用に微調整された15の大手言語モデル（LLM）を研究し、最大のソフ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

Smooth InfoMax — Towards easier Post-Hoc interpretability

投稿日: 2025年3月20日作成者: jarxiv

要約 Smooth Infomax（SIM）を紹介します。これは、ニューラルネッ … 続きを読む →

カテゴリー: cs.AI, cs.LG | コメントを受け付けていません

What Makes a Reward Model a Good Teacher? An Optimization Perspective

投稿日: 2025年3月20日作成者: jarxiv

要約人間のフィードバック（RLHF）からの強化学習の成功は、報酬モデルの品質に … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML | コメントを受け付けていません

Learning to Play Piano in the Real World

投稿日: 2025年3月20日作成者: jarxiv

要約ロボットで人間レベルの操作を達成するという壮大な挑戦に向けて、ピアノを演奏 … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.RO | コメントを受け付けていません

Value Profiles for Encoding Human Variation

投稿日: 2025年3月20日作成者: jarxiv

要約評価タスクにおける人間の変動のモデリングは、パーソナライズ、多元的モデルア … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.HC, cs.LG | コメントを受け付けていません

「cs.LG」カテゴリーアーカイブ

Sample Efficient Reinforcement Learning from Human Feedback via Active Exploration

The Impact of Input Order Bias on Large Language Models for Software Fault Localization

Predictable Scale: Part I — Optimal Hyperparameter Scaling Law in Large Language Model Pretraining

dFLMoE: Decentralized Federated Learning via Mixture of Experts for Medical Data Analysis

Subversion Strategy Eval: Can language models statelessly strategize to subvert control protocols?

Probabilities of Chat LLMs Are Miscalibrated but Still Predict Correctness on Multiple-Choice Q&A

Smooth InfoMax — Towards easier Post-Hoc interpretability

What Makes a Reward Model a Good Teacher? An Optimization Perspective

Learning to Play Piano in the Real World

Value Profiles for Encoding Human Variation

最近の投稿

最近のコメント

アーカイブ

カテゴリー