-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Owl-1: Omni World Model for Consistent Long Video Generation
要約 ビデオ生成モデル (VGM) は最近大きな注目を集めており、汎用大型ビジョ … 続きを読む
TimeRefine: Temporal Grounding with Time Refining Video LLM
要約 ビデオの時間的グラウンディングは、テキストのプロンプトが与えられたビデオ内 … 続きを読む
Hidden Biases of End-to-End Driving Datasets
要約 エンドツーエンドの駆動システムは急速に進歩していますが、これまでのところ、 … 続きを読む
Do Multimodal Large Language Models See Like Humans?
要約 マルチモーダル大規模言語モデル (MLLM) は、大規模言語モデルの最近の … 続きを読む
カテゴリー: cs.CV
Do Multimodal Large Language Models See Like Humans? はコメントを受け付けていません
SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding
要約 大規模言語モデル (LLM) の目覚ましい成功はマルチモーダル領域にまで広 … 続きを読む
カテゴリー: cs.CV
SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding はコメントを受け付けていません
Feat2GS: Probing Visual Foundation Models with Gaussian Splatting
要約 ビジュアル ファウンデーション モデル (VFM) が広範なデータセットで … 続きを読む
カテゴリー: cs.CV
Feat2GS: Probing Visual Foundation Models with Gaussian Splatting はコメントを受け付けていません
Spectral Image Tokenizer
要約 画像トークナイザーは、画像を離散トークンのシーケンスにマッピングし、自己回 … 続きを読む
Representing Long Volumetric Video with Temporal Gaussian Hierarchy
要約 この論文は、マルチビュー RGB ビデオから長いボリューム ビデオを再構成 … 続きを読む
PVC: Progressive Visual Token Compression for Unified Image and Video Processing in Large Vision-Language Models
要約 Large Vision-Language Model (VLM) は、画 … 続きを読む
カテゴリー: cs.CV
PVC: Progressive Visual Token Compression for Unified Image and Video Processing in Large Vision-Language Models はコメントを受け付けていません
Olympus: A Universal Task Router for Computer Vision Tasks
要約 マルチモーダル大規模言語モデル (MLLM) を、さまざまなコンピューター … 続きを読む