月別アーカイブ: 2025年3月

SpikeLLM: Scaling up Spiking Neural Network to Large Language Models via Saliency-based Spiking

投稿日: 2025年3月4日作成者: jarxiv

要約近年、数十億ものパラメータを持つ大規模言語モデル（LLM）が進歩し、様々な … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.NE | コメントを受け付けていません

Learning Efficient Recursive Numeral Systems via Reinforcement Learning

投稿日: 2025年3月4日作成者: jarxiv

要約強化学習（RL）を用いることで、エージェントが人間のものに似た単純な近似的 … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

Subtle Errors Matter: Preference Learning via Error-injected Self-editing

投稿日: 2025年3月4日作成者: jarxiv

要約ラージ・ランゲージ・モデル（LLM）は、基本的な算数から高度な競技レベルの … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework

投稿日: 2025年3月4日作成者: jarxiv

要約大規模言語モデル(LLM)は、様々なシナリオにおける自動評価のために、ます … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

Test-Time Compute: from System-1 Thinking to System-2 Thinking

投稿日: 2025年3月4日作成者: jarxiv

要約複雑な推論におけるo1モデルの顕著な性能は、テスト時間の計算スケーリングが … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

DailyDilemmas: Revealing Value Preferences of LLMs with Quandaries of Daily Life

投稿日: 2025年3月4日作成者: jarxiv

要約日常生活における意思決定において、ユーザーがLLMのガイダンスを求めること … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

Enabling Auditory Large Language Models for Automatic Speech Quality Evaluation

投稿日: 2025年3月4日作成者: jarxiv

要約音声品質評価では通常、平均オピニオンスコア(MOS)や話者類似度(SIM) … 続きを読む →

カテゴリー: cs.CL, cs.SD, eess.AS | コメントを受け付けていません

Selected Languages are All You Need for Cross-lingual Truthfulness Transfer

投稿日: 2025年3月4日作成者: jarxiv

要約大規模言語モデル（Large Language Models: LLMs） … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

Dynamics of Instruction Fine-Tuning for Chinese Large Language Models

投稿日: 2025年3月4日作成者: jarxiv

要約インストラクションチューニングは、大規模言語モデル（LLM）の一般的な知能 … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

Robust Preference Optimization through Reward Model Distillation

投稿日: 2025年3月4日作成者: jarxiv

要約言語モデル（LM）のポストトレーニング（またはアライメント）には、嗜好アノ … 続きを読む →

カテゴリー: cs.CL, cs.LG | コメントを受け付けていません

月別アーカイブ: 2025年3月

SpikeLLM: Scaling up Spiking Neural Network to Large Language Models via Saliency-based Spiking

Learning Efficient Recursive Numeral Systems via Reinforcement Learning

Subtle Errors Matter: Preference Learning via Error-injected Self-editing

Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework

Test-Time Compute: from System-1 Thinking to System-2 Thinking

DailyDilemmas: Revealing Value Preferences of LLMs with Quandaries of Daily Life

Enabling Auditory Large Language Models for Automatic Speech Quality Evaluation

Selected Languages are All You Need for Cross-lingual Truthfulness Transfer

Dynamics of Instruction Fine-Tuning for Chinese Large Language Models

Robust Preference Optimization through Reward Model Distillation

最近の投稿

最近のコメント

アーカイブ

カテゴリー