「cs.CV」カテゴリーアーカイブ

VaViM and VaVAM: Autonomous Driving through Video Generative Modeling

投稿日: 2025年2月24日作成者: jarxiv

要約自動運転のための大規模な生成ビデオモデルの可能性を探り、オープンソースの自 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

BOSS: Benchmark for Observation Space Shift in Long-Horizon Task

投稿日: 2025年2月24日作成者: jarxiv

要約ロボット工学は、以前は目に見えなかった長距離タスクを完了することができる視 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

One-step Diffusion Models with $f$-Divergence Distribution Matching

投稿日: 2025年2月24日作成者: jarxiv

要約拡散モデルからのサンプリングには、特にインタラクティブなアプリケーションの … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Sparse Voxels Rasterization: Real-time High-fidelity Radiance Field Rendering

投稿日: 2025年2月24日作成者: jarxiv

要約ニューラルネットワークや3Dガウスのない適応スパースボクセルにラスター化プ … 続きを読む →

カテゴリー: cs.CV, cs.GR | コメントを受け付けていません

ELIP: Enhanced Visual-Language Foundation Models for Image Retrieval

投稿日: 2025年2月24日作成者: jarxiv

要約このペーパーの目的は、テキストから画像の検索のパフォーマンスを改善すること … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Temporal Misalignment in ANN-SNN Conversion and Its Mitigation via Probabilistic Spiking Neurons

投稿日: 2025年2月24日作成者: jarxiv

要約スパイクニューラルネットワーク（SNNS）は、生物学的神経原理を模倣するこ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

ChatVLA: Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model

投稿日: 2025年2月24日作成者: jarxiv

要約人間は、物理的な世界を認識し、理解し、相互作用する統一された認知能力を持っ … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.RO | コメントを受け付けていません

Humanoid-VLA: Towards Universal Humanoid Control with Visual Integration

投稿日: 2025年2月24日作成者: jarxiv

要約このペーパーでは、現在のヒューマノイドロボット制御フレームワークの制限に対 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Vision Foundation Models in Medical Image Analysis: Advances and Challenges

投稿日: 2025年2月24日作成者: jarxiv

要約 Vision Foundation Models（VFMS）、特にVisi … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

AVD2: Accident Video Diffusion for Accident Video Description

投稿日: 2025年2月24日作成者: jarxiv

要約交通事故は、自律運転の複雑な課題を提示し、多くの場合、正確なシステム解釈と … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

VaViM and VaVAM: Autonomous Driving through Video Generative Modeling

BOSS: Benchmark for Observation Space Shift in Long-Horizon Task

One-step Diffusion Models with $f$-Divergence Distribution Matching

Sparse Voxels Rasterization: Real-time High-fidelity Radiance Field Rendering

ELIP: Enhanced Visual-Language Foundation Models for Image Retrieval

Temporal Misalignment in ANN-SNN Conversion and Its Mitigation via Probabilistic Spiking Neurons

ChatVLA: Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model

Humanoid-VLA: Towards Universal Humanoid Control with Visual Integration

Vision Foundation Models in Medical Image Analysis: Advances and Challenges

AVD2: Accident Video Diffusion for Accident Video Description

最近の投稿

最近のコメント

アーカイブ

カテゴリー