-
最近の投稿
- Lightning UQ Box: A Comprehensive Framework for Uncertainty Quantification in Deep Learning
- Fine-Grained Expressive Power of Weisfeiler-Leman: A Homomorphism Counting Perspective
- Hybrid Feedback for Three-dimensional Convex Obstacle Avoidance (Extended version)
- Self-Deployable, Adaptive Soft Robots Based on Contracting-Cord Particle Jamming
- DecTrain: Deciding When to Train a DNN Online
-
最近のコメント
表示できるコメントはありません。 cs.AI (27713) cs.CL (20937) cs.CR (2171) cs.CV (34430) cs.LG (32450) cs.RO (15866) cs.SY (2464) eess.IV (4226) eess.SY (2458) stat.ML (4346)
「cs.MM」カテゴリーアーカイブ
GaussianImage: 1000 FPS Image Representation and Compression by 2D Gaussian Splatting
要約 暗黙的ニューラル表現 (INR) は最近、画像表現と圧縮において大きな成功 … 続きを読む
Leveraging Compressed Frame Sizes For Ultra-Fast Video Classification
要約 ビデオをスポーツ ビデオやミュージック ビデオなどの異なるカテゴリに分類す … 続きを読む
MoPE-CLIP: Structured Pruning for Efficient Vision-Language Models with Module-wise Pruning Error Metric
要約 ビジョン言語の事前トレーニング済みモデルは、さまざまな下流タスクで優れたパ … 続きを読む
FashionReGen: LLM-Empowered Fashion Report Generation
要約 ファッション分析とは、ファッション業界内のトレンド、スタイル、要素を調査お … 続きを読む
RED-DOT: Multimodal Fact-checking via Relevant Evidence Detection
要約 オンラインの誤った情報は本質的に多峰性であることが多く、テキストと付随する … 続きを読む
T-TAME: Trainable Attention Mechanism for Explaining Convolutional Networks and Vision Transformers
要約 画像分類タスク用の Vision Transformers やその他の深層 … 続きを読む
Self-supervised Photographic Image Layout Representation Learning
要約 画像レイアウト表現学習の領域では、画像レイアウトを簡潔なベクトル形式に変換 … 続きを読む
Causal-Story: Local Causal Attention Utilizing Parameter-Efficient Tuning For Visual Story Synthesis
要約 拡散モデルの優れたテキストから画像への合成機能により、一貫したビジュアル … 続きを読む
SNIFFER: Multimodal Large Language Model for Explainable Out-of-Context Misinformation Detection
要約 誤った情報は潜在的に高いリスクを伴うため、蔓延する社会問題です。 本物の画 … 続きを読む