投稿者「jarxiv」のアーカイブ

TTPA: Token-level Tool-use Preference Alignment Training Framework with Fine-grained Evaluation

投稿日: 2025年5月27日作成者: jarxiv

要約既存のツール学習方法は通常、監視された微調整に依存しており、多くの場合、内 … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

Training LLM-Based Agents with Synthetic Self-Reflected Trajectories and Partial Masking

投稿日: 2025年5月27日作成者: jarxiv

要約環境を知覚し、目標を達成するための行動をとる自律エージェントは、大規模な言 … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

Uncertainty-Aware Attention Heads: Efficient Unsupervised Uncertainty Quantification for LLMs

投稿日: 2025年5月27日作成者: jarxiv

要約大規模な言語モデル（LLM）は印象的な流encyさを示しますが、多くの場合 … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

REARANK: Reasoning Re-ranking Agent via Reinforcement Learning

投稿日: 2025年5月27日作成者: jarxiv

要約大規模な言語モデル（LLM）ベースのListWise Reasoning … 続きを読む →

カテゴリー: cs.CL, cs.IR | コメントを受け付けていません

The Many Challenges of Human-Like Agents in Virtual Game Environments

投稿日: 2025年5月27日作成者: jarxiv

要約人間のようなエージェントは、ゲームやそれ以降のますます重要なトピックです。 … 続きを読む →

カテゴリー: 68T01, cs.AI, cs.HC, cs.MM, H.1.2 | コメントを受け付けていません

ProcessBench: Identifying Process Errors in Mathematical Reasoning

投稿日: 2025年5月27日作成者: jarxiv

要約言語モデルは数学の問題を解決する際に定期的に間違いを犯すため、推論プロセス … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

Gradient Inversion Transcript: Leveraging Robust Generative Priors to Reconstruct Training Data from Gradient Leakage

投稿日: 2025年5月27日作成者: jarxiv

要約リークされた勾配からトレーニングデータを再構築するための新しい生成アプロー … 続きを読む →

カテゴリー: cs.AI, cs.LG | コメントを受け付けていません

Multi-modal brain encoding models for multi-modal stimuli

投稿日: 2025年5月27日作成者: jarxiv

要約画像やサイレントビデオを視聴するなどの単峰性刺激に従事している参加者にもか … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, eess.AS, eess.IV, q-bio.NC | コメントを受け付けていません

Correlating instruction-tuning (in multimodal models) with vision-language processing (in the brain)

投稿日: 2025年5月27日作成者: jarxiv

要約トランスベースの言語モデルは、脳の記録を模倣するために明示的に訓練されてい … 続きを読む →

カテゴリー: cs.AI, cs.LG, q-bio.NC | コメントを受け付けていません

Multiple Descents in Deep Learning as a Sequence of Order-Chaos Transitions

投稿日: 2025年5月27日作成者: jarxiv

要約 LSTMのトレーニングプロセス中に、テスト損失がモデルの過剰訓練後に複数回 … 続きを読む →

カテゴリー: cs.AI, cs.LG, nlin.CD, physics.comp-ph | コメントを受け付けていません

投稿者「jarxiv」のアーカイブ

TTPA: Token-level Tool-use Preference Alignment Training Framework with Fine-grained Evaluation

Training LLM-Based Agents with Synthetic Self-Reflected Trajectories and Partial Masking

Uncertainty-Aware Attention Heads: Efficient Unsupervised Uncertainty Quantification for LLMs

REARANK: Reasoning Re-ranking Agent via Reinforcement Learning

The Many Challenges of Human-Like Agents in Virtual Game Environments

ProcessBench: Identifying Process Errors in Mathematical Reasoning

Gradient Inversion Transcript: Leveraging Robust Generative Priors to Reconstruct Training Data from Gradient Leakage

Multi-modal brain encoding models for multi-modal stimuli

Correlating instruction-tuning (in multimodal models) with vision-language processing (in the brain)

Multiple Descents in Deep Learning as a Sequence of Order-Chaos Transitions

最近の投稿

最近のコメント

アーカイブ

カテゴリー