-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.LG」カテゴリーアーカイブ
ImageChain: Advancing Sequential Image-to-Text Reasoning in Multimodal Large Language Models
要約 画像のシーケンス上の推論は、マルチモーダルの大手言語モデル(MLLMS)に … 続きを読む
Canonical Latent Representations in Conditional Diffusion Models
要約 条件付き拡散モデル(CDM)は、さまざまな生成タスクで印象的なパフォーマン … 続きを読む
Kvasir-VQA-x1: A Multimodal Dataset for Medical Reasoning and Robust MedVQA in Gastrointestinal Endoscopy
要約 医学的視覚的質問応答(MEDVQA)は、臨床的意思決定支援システムを開発す … 続きを読む
V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning
要約 現代のAIの主な課題は、世界を理解し、観察によって主に行動することを学ぶこ … 続きを読む
A Shortcut-aware Video-QA Benchmark for Physical Understanding via Minimal Video Pairs
要約 ビデオ言語モデルの時空間的理解と推論能力を評価するための既存のベンチマーク … 続きを読む
EditInspector: A Benchmark for Evaluation of Text-Guided Image Edits
要約 生成AIの最近の進歩に支えられたテキスト誘導画像編集は、ますます広まってい … 続きを読む
Spectral Image Tokenizer
要約 画像トークナーは、画像を離散トークンのシーケンスにマッピングし、自己回帰ト … 続きを読む
Chain-of-Action: Trajectory Autoregressive Modeling for Robotic Manipulation
要約 軌跡の自己回帰モデリングに基づいて構築された新しいVisuo-Motorポ … 続きを読む
Text-Aware Image Restoration with Diffusion Models
要約 画像修復は、劣化した画像を回復することを目的としています。 しかし、既存の … 続きを読む