cs.CV」カテゴリーアーカイブ

Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation

要約 VQ-VAE などの画像トークナイザーの最近の進歩により、言語モデリングと … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation はコメントを受け付けていません

Attention Prompting on Image for Large Vision-Language Models

要約 大規模言語モデル (LLM) と比較して、大規模視覚言語モデル (LVLM … 続きを読む

カテゴリー: cs.AI, cs.CV | Attention Prompting on Image for Large Vision-Language Models はコメントを受け付けていません

DreamWaltz-G: Expressive 3D Gaussian Avatars from Skeleton-Guided 2D Diffusion

要約 事前トレーニングされた 2D 拡散モデルとスコア蒸留サンプリング (SDS … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.LG | DreamWaltz-G: Expressive 3D Gaussian Avatars from Skeleton-Guided 2D Diffusion はコメントを受け付けていません

Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models

要約 現在の最も先進的なマルチモーダル モデルは独自の仕様のままです。 最強のオ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models はコメントを受け付けていません

Efficient Motion Prediction: A Lightweight & Accurate Trajectory Prediction Model With Fast Training and Inference Speed

要約 効率的かつ安全な自動運転のためには、自動運転車両が他の交通エージェントの動 … 続きを読む

カテゴリー: cs.CV, cs.RO | Efficient Motion Prediction: A Lightweight & Accurate Trajectory Prediction Model With Fast Training and Inference Speed はコメントを受け付けていません

A Computer Vision Approach for Autonomous Cars to Drive Safe at Construction Zone

要約 よりスマートで安全な都市を構築するには、安全で効率的で持続可能な交通システ … 続きを読む

カテゴリー: cs.CV, cs.RO | A Computer Vision Approach for Autonomous Cars to Drive Safe at Construction Zone はコメントを受け付けていません

Toward Unified Practices in Trajectory Prediction Research on Drone Datasets

要約 高品質のデータセットの利用可能性は、自動運転車の挙動予測アルゴリズムの開発 … 続きを読む

カテゴリー: cs.CV, cs.RO | Toward Unified Practices in Trajectory Prediction Research on Drone Datasets はコメントを受け付けていません

TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation

要約 視覚-言語-動作 (VLA) モデルは、エンドツーエンドの学習プロセスを通 … 続きを読む

カテゴリー: cs.CV, cs.RO | TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation はコメントを受け付けていません

Enhanced Unsupervised Image-to-Image Translation Using Contrastive Learning and Histogram of Oriented Gradients

要約 画像から画像への変換は、コアの内容と構造を維持しながら、画像を 1 つの視 … 続きを読む

カテゴリー: cs.CV, eess.IV | Enhanced Unsupervised Image-to-Image Translation Using Contrastive Learning and Histogram of Oriented Gradients はコメントを受け付けていません

Learning Multi-axis Representation in Frequency Domain for Medical Image Segmentation

要約 最近、Visual Transformer (ViT) は、空間領域のセル … 続きを読む

カテゴリー: cs.CV, eess.IV | Learning Multi-axis Representation in Frequency Domain for Medical Image Segmentation はコメントを受け付けていません