-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.LG」カテゴリーアーカイブ
Langevin Multiplicative Weights Update with Applications in Polynomial Portfolio Management
要約 本論文では,非凸最適化問題をシンプレックス(より一般的には,シンプレックス … 続きを読む
カテゴリー: cs.LG, math.OC, Non-convex optimization
Langevin Multiplicative Weights Update with Applications in Polynomial Portfolio Management はコメントを受け付けていません
‘FRAME: Forward Recursive Adaptive Model Extraction-A Technique for Advance Feature Selection’
要約 特徴選択における課題、特にモデルの精度、解釈可能性、計算効率のバランスは、 … 続きを読む
カテゴリー: cs.LG
‘FRAME: Forward Recursive Adaptive Model Extraction-A Technique for Advance Feature Selection’ はコメントを受け付けていません
CAMEx: Curvature-aware Merging of Experts
要約 モデルの学習や微調整の際にエキスパートをマージする既存の手法は、主に平坦な … 続きを読む
カテゴリー: cs.LG
CAMEx: Curvature-aware Merging of Experts はコメントを受け付けていません
Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning
要約 人間のフィードバックによる強化学習(RLHF)は、大規模な言語モデル(LL … 続きを読む
Generative Representational Instruction Tuning
要約 テキストベースの言語問題はすべて、生成か埋め込みのどちらかに還元できる。現 … 続きを読む
TokenSelect: Efficient Long-Context Inference and Length Extrapolation for LLMs via Dynamic Token-Level KV Cache Selection
要約 大規模言語モデル(Large Language Models: LLM)の … 続きを読む
SpikeLLM: Scaling up Spiking Neural Network to Large Language Models via Saliency-based Spiking
要約 近年、数十億ものパラメータを持つ大規模言語モデル(LLM)が進歩し、様々な … 続きを読む
Test-Time Compute: from System-1 Thinking to System-2 Thinking
要約 複雑な推論におけるo1モデルの顕著な性能は、テスト時間の計算スケーリングが … 続きを読む
DailyDilemmas: Revealing Value Preferences of LLMs with Quandaries of Daily Life
要約 日常生活における意思決定において、ユーザーがLLMのガイダンスを求めること … 続きを読む
Robust Preference Optimization through Reward Model Distillation
要約 言語モデル(LM)のポストトレーニング(またはアライメント)には、嗜好アノ … 続きを読む