cs.LG」カテゴリーアーカイブ

Sample Efficient Reinforcement Learning from Human Feedback via Active Exploration

要約 嗜好ベースのフィードバックは、報酬機能の評価が実行不可能な機械学習における … 続きを読む

カテゴリー: cs.AI, cs.LG, stat.ML | Sample Efficient Reinforcement Learning from Human Feedback via Active Exploration はコメントを受け付けていません

The Impact of Input Order Bias on Large Language Models for Software Fault Localization

要約 大規模な言語モデル(LLM)は、障害ローカリゼーション(FL)や自動プログ … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.SE | The Impact of Input Order Bias on Large Language Models for Software Fault Localization はコメントを受け付けていません

Predictable Scale: Part I — Optimal Hyperparameter Scaling Law in Large Language Model Pretraining

要約 多様なタスクにわたる大規模な言語モデル(LLM)の印象的な機能は現在確立さ … 続きを読む

カテゴリー: cs.AI, cs.LG, F.2.2 | Predictable Scale: Part I — Optimal Hyperparameter Scaling Law in Large Language Model Pretraining はコメントを受け付けていません

dFLMoE: Decentralized Federated Learning via Mixture of Experts for Medical Data Analysis

要約 Federated Learningは、医療分野で幅広い用途を持っています … 続きを読む

カテゴリー: cs.AI, cs.LG | dFLMoE: Decentralized Federated Learning via Mixture of Experts for Medical Data Analysis はコメントを受け付けていません

Subversion Strategy Eval: Can language models statelessly strategize to subvert control protocols?

要約 AIコントロールプロトコルは、AIが意図的に何らかの容認できない結果を引き … 続きを読む

カテゴリー: cs.AI, cs.LG | Subversion Strategy Eval: Can language models statelessly strategize to subvert control protocols? はコメントを受け付けていません

Probabilities of Chat LLMs Are Miscalibrated but Still Predict Correctness on Multiple-Choice Q&A

要約 チャット用に微調整された15の大手言語モデル(LLM)を研究し、最大のソフ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG | Probabilities of Chat LLMs Are Miscalibrated but Still Predict Correctness on Multiple-Choice Q&A はコメントを受け付けていません

Smooth InfoMax — Towards easier Post-Hoc interpretability

要約 Smooth Infomax(SIM)を紹介します。これは、ニューラルネッ … 続きを読む

カテゴリー: cs.AI, cs.LG | Smooth InfoMax — Towards easier Post-Hoc interpretability はコメントを受け付けていません

What Makes a Reward Model a Good Teacher? An Optimization Perspective

要約 人間のフィードバック(RLHF)からの強化学習の成功は、報酬モデルの品質に … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML | What Makes a Reward Model a Good Teacher? An Optimization Perspective はコメントを受け付けていません

Learning to Play Piano in the Real World

要約 ロボットで人間レベルの操作を達成するという壮大な挑戦に向けて、ピアノを演奏 … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.RO | Learning to Play Piano in the Real World はコメントを受け付けていません

Value Profiles for Encoding Human Variation

要約 評価タスクにおける人間の変動のモデリングは、パーソナライズ、多元的モデルア … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.HC, cs.LG | Value Profiles for Encoding Human Variation はコメントを受け付けていません