-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CL」カテゴリーアーカイブ
Solving Inequality Proofs with Large Language Models
要約 不平等の証明、多様な科学的および数学的分野にわたる重要な、厳しい境界や戦略 … 続きを読む
ProtocolLLM: RTL Benchmark for SystemVerilog Generation of Communication Protocols
要約 大規模な言語モデル(LLM)の最近の進歩により、汎用プログラミング言語のコ … 続きを読む
Easy2Hard-Bench: Standardized Difficulty Labels for Profiling LLM Performance and Generalization
要約 簡単なものからハードへのタスクに関する一般化は、言語モデル(LLMS)をプ … 続きを読む
Correlated Errors in Large Language Models
要約 トレーニングデータ、アーキテクチャ、およびプロバイダーの多様性は、LLMS … 続きを読む
MIB: A Mechanistic Interpretability Benchmark
要約 新しい機械的解釈可能性の方法が実際の改善を達成するかどうかをどのように知る … 続きを読む
HeuriGym: An Agentic Benchmark for LLM-Crafted Heuristics in Combinatorial Optimization
要約 大規模な言語モデル(LLM)は推論とエージェントベースの問題解決において大 … 続きを読む
Automated Capability Discovery via Foundation Model Self-Exploration
要約 基礎モデルは汎用アシスタントになり、Webスケールデータのトレーニングを通 … 続きを読む
$τ^2$-Bench: Evaluating Conversational Agents in a Dual-Control Environment
要約 会話型AIエージェントの既存のベンチマークは、AIエージェントのみがツール … 続きを読む
When Two LLMs Debate, Both Think They’ll Win
要約 LLMSは反対に直面したときに自信を正確に調整できますか? 静的な事実ベー … 続きを読む
PhantomWiki: On-Demand Datasets for Reasoning and Retrieval Evaluation
要約 大規模な言語モデル(LLM)の推論と検索機能を評価するためには、高品質のベ … 続きを読む