cs.CV」カテゴリーアーカイブ

OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction

要約 Vision-Language-action(VLA)モデルは、視覚的な観 … 続きを読む

カテゴリー: cs.CV, cs.RO | コメントする

NVILA: Efficient Frontier Visual Language Models

要約 視覚言語モデル(VLM)は、近年、精度に大きな進歩を遂げています。 しかし … 続きを読む

カテゴリー: cs.CV | コメントする

GEN3C: 3D-Informed World-Consistent Video Generation with Precise Camera Control

要約 正確なカメラ制御と時間的な3D一貫性を備えた生成ビデオモデルであるGen3 … 続きを読む

カテゴリー: cs.CV, cs.GR | コメントする

A Multi-Sensor Fusion Approach for Rapid Orthoimage Generation in Large-Scale UAV Mapping

要約 無人航空機(UAV)からの大規模なオルソイメージの急速な生成は、航空マッピ … 続きを読む

カテゴリー: cs.CV, cs.RO, eess.IV | コメントする

STAA-SNN: Spatial-Temporal Attention Aggregator for Spiking Neural Networks

要約 スパイクニューラルネットワーク(SNN)は、生物学的妥当性とエネルギー効率 … 続きを読む

カテゴリー: cs.CV | コメントする

Near-infrared Image Deblurring and Event Denoising with Synergistic Neuromorphic Imaging

要約 夜間のダイナミックおよびその他の非常に暗い条件におけるイメージングの分野は … 続きを読む

カテゴリー: cs.CV | コメントする

ArcPro: Architectural Programs for Structured 3D Abstraction of Sparse Points

要約 アーキテクチャプログラムに基づいて構築された新しい学習フレームワークである … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.LG | コメントする

Unified Video Action Model

要約 統一されたビデオとアクションモデルは、動画がアクション予測のための豊富なシ … 続きを読む

カテゴリー: cs.CV, cs.RO | コメントする

OpenFly: A Versatile Toolchain and Large-scale Benchmark for Aerial Vision-Language Navigation

要約 Vision-Language Navigation(VLN)は、言語の指 … 続きを読む

カテゴリー: cs.CV, cs.RO | コメントする

ROCKET-2: Steering Visuomotor Policy via Cross-View Goal Alignment

要約 私たちは、人間のユーザーが具体化された環境でエージェントの相互作用を導くた … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントする