投稿者「jarxiv」のアーカイブ

TTPA: Token-level Tool-use Preference Alignment Training Framework with Fine-grained Evaluation

要約 既存のツール学習方法は通常、監視された微調整に依存しており、多くの場合、内 … 続きを読む

カテゴリー: cs.CL | TTPA: Token-level Tool-use Preference Alignment Training Framework with Fine-grained Evaluation はコメントを受け付けていません

Training LLM-Based Agents with Synthetic Self-Reflected Trajectories and Partial Masking

要約 環境を知覚し、目標を達成するための行動をとる自律エージェントは、大規模な言 … 続きを読む

カテゴリー: cs.CL | Training LLM-Based Agents with Synthetic Self-Reflected Trajectories and Partial Masking はコメントを受け付けていません

Uncertainty-Aware Attention Heads: Efficient Unsupervised Uncertainty Quantification for LLMs

要約 大規模な言語モデル(LLM)は印象的な流encyさを示しますが、多くの場合 … 続きを読む

カテゴリー: cs.CL | Uncertainty-Aware Attention Heads: Efficient Unsupervised Uncertainty Quantification for LLMs はコメントを受け付けていません

REARANK: Reasoning Re-ranking Agent via Reinforcement Learning

要約 大規模な言語モデル(LLM)ベースのListWise Reasoning … 続きを読む

カテゴリー: cs.CL, cs.IR | REARANK: Reasoning Re-ranking Agent via Reinforcement Learning はコメントを受け付けていません

The Many Challenges of Human-Like Agents in Virtual Game Environments

要約 人間のようなエージェントは、ゲームやそれ以降のますます重要なトピックです。 … 続きを読む

カテゴリー: 68T01, cs.AI, cs.HC, cs.MM, H.1.2 | The Many Challenges of Human-Like Agents in Virtual Game Environments はコメントを受け付けていません

ProcessBench: Identifying Process Errors in Mathematical Reasoning

要約 言語モデルは数学の問題を解決する際に定期的に間違いを犯すため、推論プロセス … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG | ProcessBench: Identifying Process Errors in Mathematical Reasoning はコメントを受け付けていません

Gradient Inversion Transcript: Leveraging Robust Generative Priors to Reconstruct Training Data from Gradient Leakage

要約 リークされた勾配からトレーニングデータを再構築するための新しい生成アプロー … 続きを読む

カテゴリー: cs.AI, cs.LG | Gradient Inversion Transcript: Leveraging Robust Generative Priors to Reconstruct Training Data from Gradient Leakage はコメントを受け付けていません

Multi-modal brain encoding models for multi-modal stimuli

要約 画像やサイレントビデオを視聴するなどの単峰性刺激に従事している参加者にもか … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, eess.AS, eess.IV, q-bio.NC | Multi-modal brain encoding models for multi-modal stimuli はコメントを受け付けていません

Correlating instruction-tuning (in multimodal models) with vision-language processing (in the brain)

要約 トランスベースの言語モデルは、脳の記録を模倣するために明示的に訓練されてい … 続きを読む

カテゴリー: cs.AI, cs.LG, q-bio.NC | Correlating instruction-tuning (in multimodal models) with vision-language processing (in the brain) はコメントを受け付けていません

Multiple Descents in Deep Learning as a Sequence of Order-Chaos Transitions

要約 LSTMのトレーニングプロセス中に、テスト損失がモデルの過剰訓練後に複数回 … 続きを読む

カテゴリー: cs.AI, cs.LG, nlin.CD, physics.comp-ph | Multiple Descents in Deep Learning as a Sequence of Order-Chaos Transitions はコメントを受け付けていません