「cs.CV」カテゴリーアーカイブ

3DLLM-Mem: Long-Term Spatial-Temporal Memory for Embodied 3D Large Language Model

投稿日: 2025年5月29日作成者: jarxiv

要約人間は、時間的および空間的経験を越えて長期的なメモリを活用することにより、 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Training Free Stylized Abstraction

投稿日: 2025年5月29日作成者: jarxiv

要約様式化された抽象化は、視覚的に誇張されているが意味的に忠実な被験者の表現を … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Zero-Shot Vision Encoder Grafting via LLM Surrogates

投稿日: 2025年5月29日作成者: jarxiv

要約ビジョン言語モデル（VLMS）は通常、控えめなサイズのビジョンエンコーダー … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MagicTryOn: Harnessing Diffusion Transformer for Garment-Preserving Video Virtual Try-on

投稿日: 2025年5月29日作成者: jarxiv

要約 Video Virtual Try-On（VVT）は、連続したビデオフレー … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

HoliTom: Holistic Token Merging for Fast Video Large Language Models

投稿日: 2025年5月29日作成者: jarxiv

要約ビデオ大規模な言語モデル（ビデオLLM）はビデオ理解に優れていますが、冗長 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Visuospatial Cognitive Assistant

投稿日: 2025年5月29日作成者: jarxiv

要約ビデオベースの空間認知は、ロボット工学と具体化されたAIにとって不可欠です … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

Towards Visuospatial Cognition via Hierarchical Fusion of Visual Experts

投稿日: 2025年5月29日作成者: jarxiv

要約マルチモーダルの大手言語モデル（MLLM）は一般的なビジョン言語タスクに優 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

AgriFM: A Multi-source Temporal Remote Sensing Foundation Model for Crop Mapping

投稿日: 2025年5月29日作成者: jarxiv

要約正確な作物マッピングは、個々のフィールドテクスチャから景観レベルのコンテキ … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

QUART-Online: Latency-Free Large Multimodal Language Model for Quadruped Robot Learning

投稿日: 2025年5月28日作成者: jarxiv

要約このペーパーでは、四足動物言語アクション（quar-VLA）タスクにマルチ … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Spatial RoboGrasp: Generalized Robotic Grasping Control Policy

投稿日: 2025年5月28日作成者: jarxiv

要約主に空間的知覚の制限のため、多様な環境で一般化可能で正確なロボット操作を達 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

3DLLM-Mem: Long-Term Spatial-Temporal Memory for Embodied 3D Large Language Model

Training Free Stylized Abstraction

Zero-Shot Vision Encoder Grafting via LLM Surrogates

MagicTryOn: Harnessing Diffusion Transformer for Garment-Preserving Video Virtual Try-on

HoliTom: Holistic Token Merging for Fast Video Large Language Models

Visuospatial Cognitive Assistant

Towards Visuospatial Cognition via Hierarchical Fusion of Visual Experts

AgriFM: A Multi-source Temporal Remote Sensing Foundation Model for Crop Mapping

QUART-Online: Latency-Free Large Multimodal Language Model for Quadruped Robot Learning

Spatial RoboGrasp: Generalized Robotic Grasping Control Policy

最近の投稿

最近のコメント

アーカイブ

カテゴリー