cs.CV」カテゴリーアーカイブ

Ocular Disease Classification Using CNN with Deep Convolutional Generative Adversarial Network

要約 畳み込みニューラルネットワーク(CNN)は、その強力な学習能力のため、画像 … 続きを読む

カテゴリー: cs.CV | Ocular Disease Classification Using CNN with Deep Convolutional Generative Adversarial Network はコメントを受け付けていません

Magic 1-For-1: Generating One Minute Video Clips within One Minute

要約 このテクニカルレポートでは、最適化されたメモリ消費と推論潜時を備えた効率的 … 続きを読む

カテゴリー: cs.CV | Magic 1-For-1: Generating One Minute Video Clips within One Minute はコメントを受け付けていません

Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering

要約 最近、視覚的質問答(VQA)のビジョン言語モデル(VLMS)を包括的に改善 … 続きを読む

カテゴリー: cs.CV | Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering はコメントを受け付けていません

S2CFormer: Reorienting Learned Image Compression from Spatial Interaction to Channel Aggregation

要約 トランスは、学習した画像圧縮(LIC)で大幅に成功しており、非線形変換の主 … 続きを読む

カテゴリー: cs.CV, eess.IV | S2CFormer: Reorienting Learned Image Compression from Spatial Interaction to Channel Aggregation はコメントを受け付けていません

ReStyle3D: Scene-Level Appearance Transfer with Semantic Correspondences

要約 Restyle3Dを紹介します。これは、単一のスタイルの画像から複数のビュ … 続きを読む

カテゴリー: cs.CV, cs.GR | ReStyle3D: Scene-Level Appearance Transfer with Semantic Correspondences はコメントを受け付けていません

Simplifying DINO via Coding Rate Regularization

要約 DINOとDINOV2は、大規模で無効な画像データから表現を学習するために … 続きを読む

カテゴリー: cs.AI, cs.CV | Simplifying DINO via Coding Rate Regularization はコメントを受け付けていません

Region-Adaptive Sampling for Diffusion Transformers

要約 拡散モデル(DM)は、多様なドメイン全体の生成タスクの主要な選択となってい … 続きを読む

カテゴリー: cs.AI, cs.CV | Region-Adaptive Sampling for Diffusion Transformers はコメントを受け付けていません

MM-RLHF: The Next Step Forward in Multimodal LLM Alignment

要約 マルチモーダルの大手言語モデル(MLLM)の顕著な進歩にもかかわらず、ほと … 続きを読む

カテゴリー: cs.CL, cs.CV | MM-RLHF: The Next Step Forward in Multimodal LLM Alignment はコメントを受け付けていません

Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding

要約 この論文では、3D視覚的接地のための効率的なマルチレベルの畳み込みアーキテ … 続きを読む

カテゴリー: cs.CV, cs.LG | Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding はコメントを受け付けていません

Surface Vision Mamba: Leveraging Bidirectional State Space Model for Efficient Spherical Manifold Representation

要約 注意ベースの方法は、従来の幾何学的深部学習(GDL)モデルを上回り、球状の … 続きを読む

カテゴリー: cs.AI, cs.CV | Surface Vision Mamba: Leveraging Bidirectional State Space Model for Efficient Spherical Manifold Representation はコメントを受け付けていません