-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Ocular Disease Classification Using CNN with Deep Convolutional Generative Adversarial Network
要約 畳み込みニューラルネットワーク(CNN)は、その強力な学習能力のため、画像 … 続きを読む
カテゴリー: cs.CV
Ocular Disease Classification Using CNN with Deep Convolutional Generative Adversarial Network はコメントを受け付けていません
Magic 1-For-1: Generating One Minute Video Clips within One Minute
要約 このテクニカルレポートでは、最適化されたメモリ消費と推論潜時を備えた効率的 … 続きを読む
カテゴリー: cs.CV
Magic 1-For-1: Generating One Minute Video Clips within One Minute はコメントを受け付けていません
Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering
要約 最近、視覚的質問答(VQA)のビジョン言語モデル(VLMS)を包括的に改善 … 続きを読む
カテゴリー: cs.CV
Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering はコメントを受け付けていません
S2CFormer: Reorienting Learned Image Compression from Spatial Interaction to Channel Aggregation
要約 トランスは、学習した画像圧縮(LIC)で大幅に成功しており、非線形変換の主 … 続きを読む
ReStyle3D: Scene-Level Appearance Transfer with Semantic Correspondences
要約 Restyle3Dを紹介します。これは、単一のスタイルの画像から複数のビュ … 続きを読む
Simplifying DINO via Coding Rate Regularization
要約 DINOとDINOV2は、大規模で無効な画像データから表現を学習するために … 続きを読む
Region-Adaptive Sampling for Diffusion Transformers
要約 拡散モデル(DM)は、多様なドメイン全体の生成タスクの主要な選択となってい … 続きを読む
MM-RLHF: The Next Step Forward in Multimodal LLM Alignment
要約 マルチモーダルの大手言語モデル(MLLM)の顕著な進歩にもかかわらず、ほと … 続きを読む
Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding
要約 この論文では、3D視覚的接地のための効率的なマルチレベルの畳み込みアーキテ … 続きを読む
Surface Vision Mamba: Leveraging Bidirectional State Space Model for Efficient Spherical Manifold Representation
要約 注意ベースの方法は、従来の幾何学的深部学習(GDL)モデルを上回り、球状の … 続きを読む