-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2025年5月
Do Large Language Models Excel in Complex Logical Reasoning with Formal Language?
要約 大規模な言語モデル(LLM)は、複雑な論理推論タスクで画期的なパフォーマン … 続きを読む
Guided Diffusion Sampling on Function Spaces with Applications to PDEs
要約 PDEベースの逆問題における条件付きサンプリングのための一般的なフレームワ … 続きを読む
R1-Searcher++: Incentivizing the Dynamic Knowledge Acquisition of LLMs via Reinforcement Learning
要約 大規模な言語モデル(LLM)は強力ですが、静的な知識のために幻覚を起こしや … 続きを読む
Understanding Prompt Tuning and In-Context Learning via Meta-Learning
要約 プロンプトは、タスクをターゲットにするために優先モデルを適応させる主な方法 … 続きを読む
InSTA: Towards Internet-Scale Training For Agents
要約 Webナビゲーションエージェントをトレーニングするための主なアプローチは、 … 続きを読む
Perceptual Quality Assessment for Embodied AI
要約 具体化されたAIは近年急速に発達していますが、それでも主に研究所に展開され … 続きを読む
Action2Dialogue: Generating Character-Centric Narratives from Scene-Level Prompts
要約 シーンベースのビデオ生成の最近の進歩により、システムは構造化されたプロンプ … 続きを読む
カテゴリー: cs.CV
Action2Dialogue: Generating Character-Centric Narratives from Scene-Level Prompts はコメントを受け付けていません
Retrieval-Augmented Perception: High-Resolution Image Perception Meets Visual RAG
要約 高解像度(HR)画像認識は、マルチモーダル大手言語モデル(MLLM)の重要 … 続きを読む
DongbaMIE: A Multimodal Information Extraction Dataset for Evaluating Semantic Understanding of Dongba Pictograms
要約 Dongbaの絵文字は、世界でまだ使用されている唯一の絵文字スクリプトです … 続きを読む
カテゴリー: cs.CV
DongbaMIE: A Multimodal Information Extraction Dataset for Evaluating Semantic Understanding of Dongba Pictograms はコメントを受け付けていません
From EduVisBench to EduVisAgent: A Benchmark and Multi-Agent Framework for Pedagogical Visualization
要約 拡散モデルや大規模な視覚言語モデル(LVLMS)などの基礎モデル(FMS) … 続きを読む