-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
MAP: Multimodal Uncertainty-Aware Vision-Language Pre-training Model
要約 マルチモーダルな意味理解では、多くの場合、不確実性に対処する必要があります … 続きを読む
GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition
要約 対照学習に基づくクロスモダリティ事前トレーニング手法は、最近、さまざまな分 … 続きを読む
Embedded Heterogeneous Attention Transformer for Cross-lingual Image Captioning
要約 クロスリンガルの画像キャプションは、マルチメディア分析においてクロスリンガ … 続きを読む
AGAR: Attention Graph-RNN for Adaptative Motion Prediction of Point Clouds of Deformable Objects
要約 この論文は、人体の動きなど、変形可能な 3D オブジェクトの困難なケースに … 続きを読む
TbExplain: A Text-based Explanation Method for Scene Classification Models with the Statistical Prediction Correction
要約 Explainable Artificial Intelligence ( … 続きを読む
Self-Supervised Learning for Videos: A Survey
要約 さまざまな分野での深層学習の目覚ましい成功は、大規模な注釈付きデータセット … 続きを読む
Robustness Analysis of Video-Language Models Against Visual and Language Perturbations
要約 大規模なデータセットでの視覚と言語の共同モデリングは、最近、単一モーダル学 … 続きを読む
Multi-Modal Discussion Transformer: Integrating Text, Images and Graph Transformers to Detect Hate Speech on Social Media
要約 我々は、オンライン ソーシャル ネットワークにおけるヘイトスピーチを検出す … 続きを読む
SuS-X: Training-Free Name-Only Transfer of Vision-Language Models
要約 Contrastive Language-Image Pre-traini … 続きを読む
Multi-Task Cross-Modality Attention-Fusion for 2D Object Detection
要約 自動運転には、正確かつ堅牢な物体検出が不可欠です。 画像ベースの検出器は、 … 続きを読む