-
最近の投稿
- Multimodal Active Measurement for Human Mesh Recovery in Close Proximity
- An Algorithm for Distributed Computation of Reachable Sets for Multi-Agent Systems
- Meta-Learning Augmented MPC for Disturbance-Aware Motion Planning and Control of Quadrotors
- Solving Multi-Goal Robotic Tasks with Decision Transformer
- Context-Aware Command Understanding for Tabletop Scenarios
-
最近のコメント
表示できるコメントはありません。 cs.AI (27848) cs.CL (21045) cs.CR (2180) cs.CV (34554) cs.LG (32592) cs.RO (15968) cs.SY (2478) eess.IV (4238) eess.SY (2472) stat.ML (4364)
「cs.CV」カテゴリーアーカイブ
Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation
要約 VQ-VAE などの画像トークナイザーの最近の進歩により、言語モデリングと … 続きを読む
Attention Prompting on Image for Large Vision-Language Models
要約 大規模言語モデル (LLM) と比較して、大規模視覚言語モデル (LVLM … 続きを読む
DreamWaltz-G: Expressive 3D Gaussian Avatars from Skeleton-Guided 2D Diffusion
要約 事前トレーニングされた 2D 拡散モデルとスコア蒸留サンプリング (SDS … 続きを読む
Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models
要約 現在の最も先進的なマルチモーダル モデルは独自の仕様のままです。 最強のオ … 続きを読む
Efficient Motion Prediction: A Lightweight & Accurate Trajectory Prediction Model With Fast Training and Inference Speed
要約 効率的かつ安全な自動運転のためには、自動運転車両が他の交通エージェントの動 … 続きを読む
A Computer Vision Approach for Autonomous Cars to Drive Safe at Construction Zone
要約 よりスマートで安全な都市を構築するには、安全で効率的で持続可能な交通システ … 続きを読む
Toward Unified Practices in Trajectory Prediction Research on Drone Datasets
要約 高品質のデータセットの利用可能性は、自動運転車の挙動予測アルゴリズムの開発 … 続きを読む
TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation
要約 視覚-言語-動作 (VLA) モデルは、エンドツーエンドの学習プロセスを通 … 続きを読む
Enhanced Unsupervised Image-to-Image Translation Using Contrastive Learning and Histogram of Oriented Gradients
要約 画像から画像への変換は、コアの内容と構造を維持しながら、画像を 1 つの視 … 続きを読む
Learning Multi-axis Representation in Frequency Domain for Medical Image Segmentation
要約 最近、Visual Transformer (ViT) は、空間領域のセル … 続きを読む