cs.CV」カテゴリーアーカイブ

Structurally Disentangled Feature Fields Distillation for 3D Understanding and Editing

要約 最近の作業により、大規模な訓練を受けた2Dモデルを使用して得られた事前に訓 … 続きを読む

カテゴリー: cs.CV | Structurally Disentangled Feature Fields Distillation for 3D Understanding and Editing はコメントを受け付けていません

RendBEV: Semantic Novel View Synthesis for Self-Supervised Bird’s Eye View Segmentation

要約 Bird’s Eye View(BEV)セマンティックマップは … 続きを読む

カテゴリー: cs.CV | RendBEV: Semantic Novel View Synthesis for Self-Supervised Bird’s Eye View Segmentation はコメントを受け付けていません

Humanoid-VLA: Towards Universal Humanoid Control with Visual Integration

要約 このペーパーでは、現在のヒューマノイドロボット制御フレームワークの制限に対 … 続きを読む

カテゴリー: cs.CV, cs.RO | Humanoid-VLA: Towards Universal Humanoid Control with Visual Integration はコメントを受け付けていません

A Survey on Text-Driven 360-Degree Panorama Generation

要約 テキスト駆動型の360度のパノラマ生成の出現は、テキストの説明から直接36 … 続きを読む

カテゴリー: cs.AI, cs.CV | A Survey on Text-Driven 360-Degree Panorama Generation はコメントを受け付けていません

AVD2: Accident Video Diffusion for Accident Video Description

要約 交通事故は、自律運転の複雑な課題を提示し、しばしば正確なシステムの解釈と応 … 続きを読む

カテゴリー: cs.CV | AVD2: Accident Video Diffusion for Accident Video Description はコメントを受け付けていません

FetalCLIP: A Visual-Language Foundation Model for Fetal Ultrasound Image Analysis

要約 基礎モデルは、医療ドメインでますます効果的になりつつあり、下流のタスクに容 … 続きを読む

カテゴリー: cs.AI, cs.CV, eess.IV | FetalCLIP: A Visual-Language Foundation Model for Fetal Ultrasound Image Analysis はコメントを受け付けていません

Exploring Advanced Techniques for Visual Question Answering: A Comprehensive Comparison

要約 視覚的な質問応答(VQA)は、コンピュータービジョンと自然言語処理の交差点 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.ET, cs.LG | Exploring Advanced Techniques for Visual Question Answering: A Comprehensive Comparison はコメントを受け付けていません

Improving the Diffusability of Autoencoders

要約 潜在的な拡散モデルは、高品質の画像とビデオを生成するための主要なアプローチ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Improving the Diffusability of Autoencoders はコメントを受け付けていません

LongWriter-V: Enabling Ultra-Long and High-Fidelity Generation in Vision-Language Models

要約 既存の大きなビジョン言語モデル(LVLMS)は、最大128Kの視覚的および … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | LongWriter-V: Enabling Ultra-Long and High-Fidelity Generation in Vision-Language Models はコメントを受け付けていません

Dynamic Concepts Personalization from Single Videos

要約 生成的なテキストから画像へのパーソナライズモデルをパーソナライズすると、驚 … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.LG | Dynamic Concepts Personalization from Single Videos はコメントを受け付けていません