「cs.CV」カテゴリーアーカイブ

Beyond Matryoshka: Revisiting Sparse Coding for Adaptive Representation

投稿日: 2025年3月6日作成者: jarxiv

要約多くの大規模システムは、検索、検索、生成モデリングなどのタスクを容易にする … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.IR, cs.LG | コメントを受け付けていません

Fractal Calibration for long-tailed object detection

投稿日: 2025年3月6日作成者: jarxiv

要約実際のデータセットは、不均衡な分布に続きます。これは、まれなカテゴリオブジ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Rethinking Video Tokenization: A Conditioned Diffusion-based Approach

投稿日: 2025年3月6日作成者: jarxiv

要約ビデオをコンパクトな潜在表現に変換するビデオトークナーは、ビデオ生成の鍵で … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Active 6D Pose Estimation for Textureless Objects using Multi-View RGB Frames

投稿日: 2025年3月6日作成者: jarxiv

要約 RBG画像からのテクスチャーのないオブジェクトの6Dポーズを推定することは … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Rethinking Deep Clustering Paradigms: Self-Supervision Is All You Need

投稿日: 2025年3月6日作成者: jarxiv

要約深いクラスタリングの最近の進歩は、自己教師と疑似監督の学習の大幅な進歩によ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction

投稿日: 2025年3月6日作成者: jarxiv

要約 Vision-Language-action（VLA）モデルは、視覚的な観 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

NVILA: Efficient Frontier Visual Language Models

投稿日: 2025年3月6日作成者: jarxiv

要約視覚言語モデル（VLM）は、近年、精度に大きな進歩を遂げています。しかし … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

GEN3C: 3D-Informed World-Consistent Video Generation with Precise Camera Control

投稿日: 2025年3月6日作成者: jarxiv

要約正確なカメラ制御と時間的な3D一貫性を備えた生成ビデオモデルであるGen3 … 続きを読む →

カテゴリー: cs.CV, cs.GR | コメントを受け付けていません

A Multi-Sensor Fusion Approach for Rapid Orthoimage Generation in Large-Scale UAV Mapping

投稿日: 2025年3月6日作成者: jarxiv

要約無人航空機（UAV）からの大規模なオルソイメージの急速な生成は、航空マッピ … 続きを読む →

カテゴリー: cs.CV, cs.RO, eess.IV | コメントを受け付けていません

STAA-SNN: Spatial-Temporal Attention Aggregator for Spiking Neural Networks

投稿日: 2025年3月6日作成者: jarxiv

要約スパイクニューラルネットワーク（SNN）は、生物学的妥当性とエネルギー効率 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Beyond Matryoshka: Revisiting Sparse Coding for Adaptive Representation

Fractal Calibration for long-tailed object detection

Rethinking Video Tokenization: A Conditioned Diffusion-based Approach

Active 6D Pose Estimation for Textureless Objects using Multi-View RGB Frames

Rethinking Deep Clustering Paradigms: Self-Supervision Is All You Need

OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction

NVILA: Efficient Frontier Visual Language Models

GEN3C: 3D-Informed World-Consistent Video Generation with Precise Camera Control

A Multi-Sensor Fusion Approach for Rapid Orthoimage Generation in Large-Scale UAV Mapping

STAA-SNN: Spatial-Temporal Attention Aggregator for Spiking Neural Networks

最近の投稿

最近のコメント

アーカイブ

カテゴリー