月別アーカイブ: 2025年5月

Stochastic Chameleons: Irrelevant Context Hallucinations Reveal Class-Based (Mis)Generalization in LLMs

要約 NLPベンチマーク上の大規模な言語モデル(LLMS)の広範な成功には、LL … 続きを読む

カテゴリー: cs.CL | Stochastic Chameleons: Irrelevant Context Hallucinations Reveal Class-Based (Mis)Generalization in LLMs はコメントを受け付けていません

Characterizing Bias: Benchmarking Large Language Models in Simplified versus Traditional Chinese

要約 大規模な言語モデル(LLM)の能力は、単純化された中国語と伝統的な中国語の … 続きを読む

カテゴリー: cs.CL, cs.CY | Characterizing Bias: Benchmarking Large Language Models in Simplified versus Traditional Chinese はコメントを受け付けていません

WebDancer: Towards Autonomous Information Seeking Agency

要約 複雑な現実世界の問題に対処するには、詳細な情報探索とマルチステップの推論が … 続きを読む

カテゴリー: cs.CL | WebDancer: Towards Autonomous Information Seeking Agency はコメントを受け付けていません

The Climb Carves Wisdom Deeper Than the Summit: On the Noisy Rewards in Learning to Reason

要約 強化学習(RL)を通じて推論するためのトレーニング後の大手言語モデル(LL … 続きを読む

カテゴリー: cs.CL | The Climb Carves Wisdom Deeper Than the Summit: On the Noisy Rewards in Learning to Reason はコメントを受け付けていません

GuessArena: Guess Who I Am? A Self-Adaptive Framework for Evaluating LLMs in Domain-Specific Knowledge and Reasoning

要約 大規模な言語モデル(LLMS)の評価は、伝統的に静的ベンチマークに依存して … 続きを読む

カテゴリー: cs.CL | GuessArena: Guess Who I Am? A Self-Adaptive Framework for Evaluating LLMs in Domain-Specific Knowledge and Reasoning はコメントを受け付けていません

AutoL2S: Auto Long-Short Reasoning for Efficient Large Language Models

要約 推論対応の大規模な言語モデル(LLMS)は、複雑な推論タスクで強力なパフォ … 続きを読む

カテゴリー: cs.CL, cs.LG | AutoL2S: Auto Long-Short Reasoning for Efficient Large Language Models はコメントを受け付けていません

How Do LLMs Perform Two-Hop Reasoning in Context?

要約 「ソクラテスは人間です。 すべての人間は致命的です。 したがって、ソクラテ … 続きを読む

カテゴリー: cs.AI, cs.CL | How Do LLMs Perform Two-Hop Reasoning in Context? はコメントを受け付けていません

Human-Centered Human-AI Collaboration (HCHAC)

要約 インテリジェントな時代において、人間とインテリジェントシステムとの相互作用 … 続きを読む

カテゴリー: cs.AI, cs.CY, cs.HC | Human-Centered Human-AI Collaboration (HCHAC) はコメントを受け付けていません

Position: Don’t Use the CLT in LLM Evals With Fewer Than a Few Hundred Datapoints

要約 有効なエラーバーや有意性テストを含む、大規模な言語モデル(LLM)の厳密な … 続きを読む

カテゴリー: cs.AI, cs.LG, stat.ML | Position: Don’t Use the CLT in LLM Evals With Fewer Than a Few Hundred Datapoints はコメントを受け付けていません

Learned Collusion

要約 Qラーニングは、利用可能な各アクションに関連付けられた継続値の推定値(Q値 … 続きを読む

カテゴリー: cs.AI, cs.GT, econ.TH | Learned Collusion はコメントを受け付けていません