投稿者「jarxiv」のアーカイブ

MSCViT: A Small-size ViT architecture with Multi-Scale Self-Attention Mechanism for Tiny Datasets

要約 Vision Transformer (ViT) は、長距離の依存関係をモ … 続きを読む

カテゴリー: cs.CV | コメントする

Diversified Augmentation with Domain Adaptation for Debiased Video Temporal Grounding

要約 ビデオにおける時間的文のグラウンディング (TSGV) は、ターゲットの瞬 … 続きを読む

カテゴリー: cs.CV | コメントする

DM-Mamba: Dual-domain Multi-scale Mamba for MRI reconstruction

要約 加速された MRI 再構成は、k 空間での大幅なアンダーサンプリングにより … 続きを読む

カテゴリー: cs.CV, eess.IV | コメントする

ORFormer: Occlusion-Robust Transformer for Accurate Facial Landmark Detection

要約 顔ランドマーク検出 (FLD) は大幅な進歩を遂げていますが、既存の FL … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする

Revolutionizing Communication with Deep Learning and XAI for Enhanced Arabic Sign Language Recognition

要約 この研究では、MobileNetV3、ResNet50、Efficient … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.CY, cs.LG | コメントする

Benchmarking Multimodal Models for Fine-Grained Image Analysis: A Comparative Study Across Diverse Visual Features

要約 この記事では、画像の分析と解釈におけるマルチモーダル モデルの機能を評価す … 続きを読む

カテゴリー: cs.CV | コメントする

Feedback-driven object detection and iterative model improvement

要約 自動物体検出は、さまざまなアプリケーションにわたってますます価値が高まって … 続きを読む

カテゴリー: cs.CV, cs.LG | コメントする

Object-Centric 2D Gaussian Splatting: Background Removal and Occlusion-Aware Pruning for Compact Object Models

要約 現在のガウス スプラッティング手法は、シーン全体を再構成するのには効果的で … 続きを読む

カテゴリー: cs.CV | コメントする

D$^2$-DPM: Dual Denoising for Quantized Diffusion Probabilistic Models

要約 拡散モデルは画像生成において最先端のパフォーマンスを実現しました。 ただし … 続きを読む

カテゴリー: cs.CV, cs.LG | コメントする

CG-MER: A Card Game-based Multimodal dataset for Emotion Recognition

要約 アフェクティブ コンピューティングの分野では、感情と新興テクノロジーの関係 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.HC | コメントする