-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
3DLLM-Mem: Long-Term Spatial-Temporal Memory for Embodied 3D Large Language Model
要約 人間は、時間的および空間的経験を越えて長期的なメモリを活用することにより、 … 続きを読む
Training Free Stylized Abstraction
要約 様式化された抽象化は、視覚的に誇張されているが意味的に忠実な被験者の表現を … 続きを読む
カテゴリー: cs.CV
Training Free Stylized Abstraction はコメントを受け付けていません
Zero-Shot Vision Encoder Grafting via LLM Surrogates
要約 ビジョン言語モデル(VLMS)は通常、控えめなサイズのビジョンエンコーダー … 続きを読む
カテゴリー: cs.CV
Zero-Shot Vision Encoder Grafting via LLM Surrogates はコメントを受け付けていません
MagicTryOn: Harnessing Diffusion Transformer for Garment-Preserving Video Virtual Try-on
要約 Video Virtual Try-On(VVT)は、連続したビデオフレー … 続きを読む
カテゴリー: cs.CV
MagicTryOn: Harnessing Diffusion Transformer for Garment-Preserving Video Virtual Try-on はコメントを受け付けていません
HoliTom: Holistic Token Merging for Fast Video Large Language Models
要約 ビデオ大規模な言語モデル(ビデオLLM)はビデオ理解に優れていますが、冗長 … 続きを読む
カテゴリー: cs.CV
HoliTom: Holistic Token Merging for Fast Video Large Language Models はコメントを受け付けていません
Visuospatial Cognitive Assistant
要約 ビデオベースの空間認知は、ロボット工学と具体化されたAIにとって不可欠です … 続きを読む
Towards Visuospatial Cognition via Hierarchical Fusion of Visual Experts
要約 マルチモーダルの大手言語モデル(MLLM)は一般的なビジョン言語タスクに優 … 続きを読む
AgriFM: A Multi-source Temporal Remote Sensing Foundation Model for Crop Mapping
要約 正確な作物マッピングは、個々のフィールドテクスチャから景観レベルのコンテキ … 続きを読む
QUART-Online: Latency-Free Large Multimodal Language Model for Quadruped Robot Learning
要約 このペーパーでは、四足動物言語アクション(quar-VLA)タスクにマルチ … 続きを読む
Spatial RoboGrasp: Generalized Robotic Grasping Control Policy
要約 主に空間的知覚の制限のため、多様な環境で一般化可能で正確なロボット操作を達 … 続きを読む