-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
MF-AED-AEC: Speech Emotion Recognition by Leveraging Multimodal Fusion, ASR Error Detection, and ASR Error Correction
要約 音声感情認識 (SER) における一般的なアプローチには、音声情報とテキス … 続きを読む
Modularized Zero-shot VQA with Pre-trained Models
要約 大規模な事前トレーニング済みモデル (PTM) は、優れたゼロショット機能 … 続きを読む
M2ORT: Many-To-One Regression Transformer for Spatial Transcriptomics Prediction from Histopathology Images
要約 空間トランスクリプトミクス (ST) の進歩により、組織病理学画像に基づい … 続きを読む
SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval
要約 マルチモーダル情報検索 (MMIR) は急速に進化している分野であり、高度 … 続きを読む
Benchmarking Large Multimodal Models against Common Corruptions
要約 この技術レポートは、一般的な破損にさらされた場合の出力の自己一貫性を特に調 … 続きを読む
Beyond Task Performance: Evaluating and Reducing the Flaws of Large Multimodal Models with In-Context Learning
要約 大規模言語モデル (LLM) の成功に続き、Flamingo モデルやその … 続きを読む
M2ORT: Many-To-One Regression Transformer for Spatial Transcriptomics Prediction from Histopathology Images
要約 空間トランスクリプトミクス (ST) の進歩により、組織病理学画像に基づい … 続きを読む
On the Audio Hallucinations in Large Audio-Video Language Models
要約 大規模なオーディオビデオ言語モデルは、ビデオとオーディオの両方の説明を生成 … 続きを読む
MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and Uni-Modal Adapter
要約 言語モデル (LM) は、さまざまな 1D テキスト関連タスクにおいて優れ … 続きを読む