投稿者「jarxiv」のアーカイブ

Automating Thought of Search: A Journey Towards Soundness and Completeness

投稿日: 2025年5月29日作成者: jarxiv

要約大規模な言語モデル（LLM）が使用されており、検索が必要な計画問題を解決し … 続きを読む →

カテゴリー: cs.AI | コメントを受け付けていません

The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

投稿日: 2025年5月29日作成者: jarxiv

要約このペーパーは、LLMSとの推論のためにRLをスケーリングする際の大きな障 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

SCIZOR: A Self-Supervised Approach to Data Curation for Large-Scale Imitation Learning

投稿日: 2025年5月29日作成者: jarxiv

要約模倣学習は、人間のデモンストレーションから多様な行動を取得できるようにする … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.RO | コメントを受け付けていません

Learning Composable Chains-of-Thought

投稿日: 2025年5月29日作成者: jarxiv

要約大規模な言語モデル（LLM）を推論するための一般的なアプローチは、分布内の … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

FastTD3: Simple, Fast, and Capable Reinforcement Learning for Humanoid Control

投稿日: 2025年5月29日作成者: jarxiv

要約強化学習（RL）はロボット工学の大きな進歩を遂げていますが、その複雑さと長 … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.RO | コメントを受け付けていません

Pre-training for Recommendation Unlearning

投稿日: 2025年5月29日作成者: jarxiv

要約グラフニューラルネットワーク（GNNS）を搭載した最新の推奨システム（GN … 続きを読む →

カテゴリー: cs.AI, cs.IR, cs.LG | コメントを受け付けていません

Position: Uncertainty Quantification Needs Reassessment for Large-language Model Agents

投稿日: 2025年5月29日作成者: jarxiv

要約大規模な言語モデル（LLMS）とチャットボットエージェントは、時々間違った … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

Maximizing Confidence Alone Improves Reasoning

投稿日: 2025年5月29日作成者: jarxiv

要約強化学習（RL）により、機械学習モデルが多くの分野で大きな進歩を達成できる … 続きを読む →

カテゴリー: cs.AI, cs.LG | コメントを受け付けていません

Fostering Video Reasoning via Next-Event Prediction

投稿日: 2025年5月29日作成者: jarxiv

要約次のトークン予測は、LLMSの推論を可能にする基礎学習タスクとして機能しま … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Universal Domain Adaptation for Semantic Segmentation

投稿日: 2025年5月29日作成者: jarxiv

要約セマンティックセグメンテーション（UDA-SS）の監視されていないドメイン … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

投稿者「jarxiv」のアーカイブ

Automating Thought of Search: A Journey Towards Soundness and Completeness

The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models

SCIZOR: A Self-Supervised Approach to Data Curation for Large-Scale Imitation Learning

Learning Composable Chains-of-Thought

FastTD3: Simple, Fast, and Capable Reinforcement Learning for Humanoid Control

Pre-training for Recommendation Unlearning

Position: Uncertainty Quantification Needs Reassessment for Large-language Model Agents

Maximizing Confidence Alone Improves Reasoning

Fostering Video Reasoning via Next-Event Prediction

Universal Domain Adaptation for Semantic Segmentation

最近の投稿

最近のコメント

アーカイブ

カテゴリー