-
最近の投稿
- Identifying and Addressing Delusions for Target-Directed Decision-Making
- Quanda: An Interpretability Toolkit for Training Data Attribution Evaluation and Beyond
- Context-Aware Command Understanding for Tabletop Scenarios
- Reliable Probabilistic Human Trajectory Prediction for Autonomous Applications
- Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology
-
最近のコメント
表示できるコメントはありません。 cs.AI (27853) cs.CL (21045) cs.CR (2180) cs.CV (34557) cs.LG (32593) cs.RO (15973) cs.SY (2479) eess.IV (4238) eess.SY (2473) stat.ML (4364)
「cs.MM」カテゴリーアーカイブ
MultiVENT: Multilingual Videos of Events with Aligned Natural Text
要約 日常のニュース報道は、従来の放送から直接の未編集のビデオ映像などの幅広いプ … 続きを読む
Artificial ASMR: A Cyber-Psychological Approach
要約 ASMR (Autonomous Sensory Meridian Res … 続きを読む
MAE-DFER: Efficient Masked Autoencoder for Self-supervised Dynamic Facial Expression Recognition
要約 動的表情認識 (DFER) は、インテリジェントで共感力のあるマシンの開発 … 続きを読む
DeSRA: Detect and Delete the Artifacts of GAN-based Real-World Super-Resolution Models
要約 敵対的生成ネットワーク (GAN) を使用した画像超解像度 (SR) は、 … 続きを読む
SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs
要約 本研究では、画像や動画などの非言語的モダリティを含む理解・生成タスクをフロ … 続きを読む
SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs
要約 この研究では、凍結された LLM が画像やビデオなどの非言語モダリティを含 … 続きを読む
$\mathbf{C}^2$Former: Calibrated and Complementary Transformer for RGB-Infrared Object Detection
要約 可視 (RGB) および赤外線 (IR) 画像での物体検出は、24 時間ア … 続きを読む
Learning to Pan-sharpening with Memories of Spatial Details
要約 パンシャープニングは、リモート センシング システムで最も一般的に使用され … 続きを読む
High-Modality Multimodal Transformer: Quantifying Modality & Interaction Heterogeneity for High-Modality Representation Learning
要約 現実世界の問題の多くは、人間がコミュニケーションに使用する話し言葉、ジェス … 続きを読む