cs.CV」カテゴリーアーカイブ

VaViM and VaVAM: Autonomous Driving through Video Generative Modeling

要約 自動運転のための大規模な生成ビデオモデルの可能性を探り、オープンソースの自 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | VaViM and VaVAM: Autonomous Driving through Video Generative Modeling はコメントを受け付けていません

BOSS: Benchmark for Observation Space Shift in Long-Horizon Task

要約 ロボット工学は、以前は目に見えなかった長距離タスクを完了することができる視 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | BOSS: Benchmark for Observation Space Shift in Long-Horizon Task はコメントを受け付けていません

One-step Diffusion Models with $f$-Divergence Distribution Matching

要約 拡散モデルからのサンプリングには、特にインタラクティブなアプリケーションの … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | One-step Diffusion Models with $f$-Divergence Distribution Matching はコメントを受け付けていません

Sparse Voxels Rasterization: Real-time High-fidelity Radiance Field Rendering

要約 ニューラルネットワークや3Dガウスのない適応スパースボクセルにラスター化プ … 続きを読む

カテゴリー: cs.CV, cs.GR | Sparse Voxels Rasterization: Real-time High-fidelity Radiance Field Rendering はコメントを受け付けていません

ELIP: Enhanced Visual-Language Foundation Models for Image Retrieval

要約 このペーパーの目的は、テキストから画像の検索のパフォーマンスを改善すること … 続きを読む

カテゴリー: cs.CV | ELIP: Enhanced Visual-Language Foundation Models for Image Retrieval はコメントを受け付けていません

Temporal Misalignment in ANN-SNN Conversion and Its Mitigation via Probabilistic Spiking Neurons

要約 スパイクニューラルネットワーク(SNNS)は、生物学的神経原理を模倣するこ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Temporal Misalignment in ANN-SNN Conversion and Its Mitigation via Probabilistic Spiking Neurons はコメントを受け付けていません

ChatVLA: Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model

要約 人間は、物理的な世界を認識し、理解し、相互作用する統一された認知能力を持っ … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | ChatVLA: Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model はコメントを受け付けていません

Humanoid-VLA: Towards Universal Humanoid Control with Visual Integration

要約 このペーパーでは、現在のヒューマノイドロボット制御フレームワークの制限に対 … 続きを読む

カテゴリー: cs.CV, cs.RO | Humanoid-VLA: Towards Universal Humanoid Control with Visual Integration はコメントを受け付けていません

Vision Foundation Models in Medical Image Analysis: Advances and Challenges

要約 Vision Foundation Models(VFMS)、特にVisi … 続きを読む

カテゴリー: cs.CV, eess.IV | Vision Foundation Models in Medical Image Analysis: Advances and Challenges はコメントを受け付けていません

AVD2: Accident Video Diffusion for Accident Video Description

要約 交通事故は、自律運転の複雑な課題を提示し、多くの場合、正確なシステム解釈と … 続きを読む

カテゴリー: cs.CV | AVD2: Accident Video Diffusion for Accident Video Description はコメントを受け付けていません