「cs.CV」カテゴリーアーカイブ

Ocular Disease Classification Using CNN with Deep Convolutional Generative Adversarial Network

投稿日: 2025年2月17日作成者: jarxiv

要約畳み込みニューラルネットワーク（CNN）は、その強力な学習能力のため、画像 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Magic 1-For-1: Generating One Minute Video Clips within One Minute

投稿日: 2025年2月17日作成者: jarxiv

要約このテクニカルレポートでは、最適化されたメモリ消費と推論潜時を備えた効率的 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering

投稿日: 2025年2月17日作成者: jarxiv

要約最近、視覚的質問答（VQA）のビジョン言語モデル（VLMS）を包括的に改善 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

S2CFormer: Reorienting Learned Image Compression from Spatial Interaction to Channel Aggregation

投稿日: 2025年2月17日作成者: jarxiv

要約トランスは、学習した画像圧縮（LIC）で大幅に成功しており、非線形変換の主 … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

ReStyle3D: Scene-Level Appearance Transfer with Semantic Correspondences

投稿日: 2025年2月17日作成者: jarxiv

要約 Restyle3Dを紹介します。これは、単一のスタイルの画像から複数のビュ … 続きを読む →

カテゴリー: cs.CV, cs.GR | コメントを受け付けていません

Simplifying DINO via Coding Rate Regularization

投稿日: 2025年2月17日作成者: jarxiv

要約 DINOとDINOV2は、大規模で無効な画像データから表現を学習するために … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Region-Adaptive Sampling for Diffusion Transformers

投稿日: 2025年2月17日作成者: jarxiv

要約拡散モデル（DM）は、多様なドメイン全体の生成タスクの主要な選択となってい … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

MM-RLHF: The Next Step Forward in Multimodal LLM Alignment

投稿日: 2025年2月17日作成者: jarxiv

要約マルチモーダルの大手言語モデル（MLLM）の顕著な進歩にもかかわらず、ほと … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding

投稿日: 2025年2月17日作成者: jarxiv

要約この論文では、3D視覚的接地のための効率的なマルチレベルの畳み込みアーキテ … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Surface Vision Mamba: Leveraging Bidirectional State Space Model for Efficient Spherical Manifold Representation

投稿日: 2025年2月17日作成者: jarxiv

要約注意ベースの方法は、従来の幾何学的深部学習（GDL）モデルを上回り、球状の … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Ocular Disease Classification Using CNN with Deep Convolutional Generative Adversarial Network

Magic 1-For-1: Generating One Minute Video Clips within One Minute

Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering

S2CFormer: Reorienting Learned Image Compression from Spatial Interaction to Channel Aggregation

ReStyle3D: Scene-Level Appearance Transfer with Semantic Correspondences

Simplifying DINO via Coding Rate Regularization

Region-Adaptive Sampling for Diffusion Transformers

MM-RLHF: The Next Step Forward in Multimodal LLM Alignment

Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding

Surface Vision Mamba: Leveraging Bidirectional State Space Model for Efficient Spherical Manifold Representation

最近の投稿

最近のコメント

アーカイブ

カテゴリー