-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CL」カテゴリーアーカイブ
Stochastic Chameleons: Irrelevant Context Hallucinations Reveal Class-Based (Mis)Generalization in LLMs
要約 NLPベンチマーク上の大規模な言語モデル(LLMS)の広範な成功には、LL … 続きを読む
カテゴリー: cs.CL
Stochastic Chameleons: Irrelevant Context Hallucinations Reveal Class-Based (Mis)Generalization in LLMs はコメントを受け付けていません
Characterizing Bias: Benchmarking Large Language Models in Simplified versus Traditional Chinese
要約 大規模な言語モデル(LLM)の能力は、単純化された中国語と伝統的な中国語の … 続きを読む
WebDancer: Towards Autonomous Information Seeking Agency
要約 複雑な現実世界の問題に対処するには、詳細な情報探索とマルチステップの推論が … 続きを読む
カテゴリー: cs.CL
WebDancer: Towards Autonomous Information Seeking Agency はコメントを受け付けていません
The Climb Carves Wisdom Deeper Than the Summit: On the Noisy Rewards in Learning to Reason
要約 強化学習(RL)を通じて推論するためのトレーニング後の大手言語モデル(LL … 続きを読む
カテゴリー: cs.CL
The Climb Carves Wisdom Deeper Than the Summit: On the Noisy Rewards in Learning to Reason はコメントを受け付けていません
GuessArena: Guess Who I Am? A Self-Adaptive Framework for Evaluating LLMs in Domain-Specific Knowledge and Reasoning
要約 大規模な言語モデル(LLMS)の評価は、伝統的に静的ベンチマークに依存して … 続きを読む
カテゴリー: cs.CL
GuessArena: Guess Who I Am? A Self-Adaptive Framework for Evaluating LLMs in Domain-Specific Knowledge and Reasoning はコメントを受け付けていません
AutoL2S: Auto Long-Short Reasoning for Efficient Large Language Models
要約 推論対応の大規模な言語モデル(LLMS)は、複雑な推論タスクで強力なパフォ … 続きを読む
How Do LLMs Perform Two-Hop Reasoning in Context?
要約 「ソクラテスは人間です。 すべての人間は致命的です。 したがって、ソクラテ … 続きを読む
SynLogic: Synthesizing Verifiable Reasoning Data at Scale for Learning Logical Reasoning and Beyond
要約 Openai-O1やDeepseek R1などの最近の進歩により、大規模な … 続きを読む
Moderating Harm: Benchmarking Large Language Models for Cyberbullying Detection in YouTube Comments
要約 オンラインプラットフォームが成長するにつれて、コメントセクションは、ユーザ … 続きを読む
ClaimPKG: Enhancing Claim Verification via Pseudo-Subgraph Generation with Lightweight Specialized LLM
要約 知識グラフ(KGS)を統合して、大規模な言語モデル(LLM)の推論能力を強 … 続きを読む