-
最近の投稿
- KISS-Matcher: Fast and Robust Point Cloud Registration Revisited
- Unpacking Failure Modes of Generative Policies: Runtime Monitoring of Consistency and Progress
- Mode-GS: Monocular Depth Guided Anchored 3D Gaussian Splatting for Robust Ground-View Scene Rendering
- A Universal Formulation for Path-Parametric Planning and Control
- Next Best Sense: Guiding Vision and Touch with FisherRF for 3D Gaussian Splatting
-
最近のコメント
表示できるコメントはありません。 cs.AI (27775) cs.CL (20990) cs.CR (2176) cs.CV (34489) cs.LG (32518) cs.RO (15916) cs.SY (2472) eess.IV (4231) eess.SY (2466) stat.ML (4356)
「cs.MM」カテゴリーアーカイブ
CMMU: A Benchmark for Chinese Multi-modal Multi-type Question Understanding and Reasoning
要約 マルチモーダル大規模言語モデル (MLLM) は目覚ましい進歩を遂げ、強力 … 続きを読む
CMMU: A Benchmark for Chinese Multi-modal Multi-type Question Understanding and Reasoning
要約 マルチモーダル大規模言語モデル (MLLM) は目覚ましい進歩を遂げ、強力 … 続きを読む
MF-AED-AEC: Speech Emotion Recognition by Leveraging Multimodal Fusion, ASR Error Detection, and ASR Error Correction
要約 音声感情認識 (SER) における一般的なアプローチには、音声情報とテキス … 続きを読む
Modularized Zero-shot VQA with Pre-trained Models
要約 大規模な事前トレーニング済みモデル (PTM) は、優れたゼロショット機能 … 続きを読む
M2ORT: Many-To-One Regression Transformer for Spatial Transcriptomics Prediction from Histopathology Images
要約 空間トランスクリプトミクス (ST) の進歩により、組織病理学画像に基づい … 続きを読む
SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval
要約 マルチモーダル情報検索 (MMIR) は急速に進化している分野であり、高度 … 続きを読む
Benchmarking Large Multimodal Models against Common Corruptions
要約 この技術レポートは、一般的な破損にさらされた場合の出力の自己一貫性を特に調 … 続きを読む
Beyond Task Performance: Evaluating and Reducing the Flaws of Large Multimodal Models with In-Context Learning
要約 大規模言語モデル (LLM) の成功に続き、Flamingo モデルやその … 続きを読む
M2ORT: Many-To-One Regression Transformer for Spatial Transcriptomics Prediction from Histopathology Images
要約 空間トランスクリプトミクス (ST) の進歩により、組織病理学画像に基づい … 続きを読む