-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CL」カテゴリーアーカイブ
JuDGE: Benchmarking Judgment Document Generation for Chinese Legal System
要約 このペーパーでは、中国の法制度における判断文書生成のパフォーマンスを評価す … 続きを読む
WebThinker: Empowering Large Reasoning Models with Deep Research Capability
要約 Openai-O1やDeepSeek-R1などの大きな推論モデル(LRMS … 続きを読む
Uncertainty Quantification for Language Models: A Suite of Black-Box, White-Box, LLM Judge, and Ensemble Scorers
要約 幻覚は、大規模な言語モデル(LLMS)の持続的な問題です。 これらのモデル … 続きを読む
SWE-smith: Scaling Data for Software Engineering Agents
要約 ソフトウェアエンジニアリングの言語モデル(LMS)の最近の進歩にもかかわら … 続きを読む
How Real Are Synthetic Therapy Conversations? Evaluating Fidelity in Prolonged Exposure Dialogues
要約 ヘルスケアにおける合成データの採用の増大は、プライバシーの懸念、現実世界の … 続きを読む
DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition
要約 Lean 4で証明する正式な定理用に設計されたオープンソースの大型言語モデ … 続きを読む
TRUST: An LLM-Based Dialogue System for Trauma Understanding and Structured Assessments
要約 目的:大規模な言語モデル(LLM)は臨床医を支援し、患者をサポートするため … 続きを読む
MEMERAG: A Multilingual End-to-End Meta-Evaluation Benchmark for Retrieval Augmented Generation
要約 検索拡張生成(RAG)システムの自動評価は、専門家のアノテーターによって判 … 続きを読む
UniDetox: Universal Detoxification of Large Language Models via Dataset Distillation
要約 さまざまな大規模な言語モデル(LLM)にわたって毒性を緩和するために設計さ … 続きを読む
Kaleidoscope: In-language Exams for Massively Multilingual Vision Evaluation
要約 ビジョン言語モデル(VLMS)の評価は、主に英語のベンチマークに依存してお … 続きを読む