-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
Reduced-Reference Quality Assessment of Point Clouds via Content-Oriented Saliency Projection
要約 多くの高密度 3D 点群が、従来の画像やビデオの代わりに視覚オブジェクトを … 続きを読む
Semi-Supervised Semantic Segmentation Methods for UW-OCTA Diabetic Retinopathy Grade Assessment
要約 糖尿病の人は、健康な人よりも糖尿病性網膜症 (DR) を発症する可能性が高 … 続きを読む
Scene-centric vs. Object-centric Image-Text Cross-modal Retrieval: A Reproducibility Study
要約 クロスモーダル検索 (CMR) へのほとんどのアプローチは、オブジェクト中 … 続きを読む
A Dietary Nutrition-aided Healthcare Platform via Effective Food Recognition on a Localized Singaporean Food Dataset
要約 ローカライズされた食品データセットは、国の特別な料理を明らかにして人々の食 … 続きを読む
Vision Transformers Are Good Mask Auto-Labelers
要約 我々は、ボックスアノテーションのみを用いたインスタンスセグメンテーションの … 続きを読む
Text2Poster: Laying out Stylized Texts on Retrieved Images
要約 ポスターの生成は様々な用途で重要なタスクですが、多くの場合、時間がかかり、 … 続きを読む
SPRING: Situated Conversation Agent Pretrained with Multimodal Questions from Incremental Layout Graph
要約 既存のマルチモーダル会話エージェントは、単純なシナリオでは絶対位置の特定や … 続きを読む
Attention-Aware Anime Line Drawing Colorization
要約 近年、アニメの線画の自動着色は、アニメ産業に多大な利益をもたらすことから注 … 続きを読む
Applicability limitations of differentiable full-reference image-quality
要約 画像処理アプリケーションの開発において、主観的な画質測定は重要な役割を担っ … 続きを読む
Training Vision-Language Transformers from Captions Alone
要約 Vision-Language Transformersは、人間のラベル( … 続きを読む