-
最近の投稿
- Characterizing Trust and Resilience in Distributed Consensus for Cyberphysical Systems
- ROMAN: Open-Set Object Map Alignment for Robust View-Invariant Global Localization
- Mobile Robot Navigation Using Hand-Drawn Maps: A Vision Language Model Approach
- SOLAQUA: SINTEF Ocean Large Aquaculture Robotics Dataset
- Improving trajectory continuity in drone-based crowd monitoring using a set of minimal-cost techniques and deep discriminative correlation filters
-
最近のコメント
表示できるコメントはありません。 cs.AI (37321) cs.CL (28240) cs.CV (43015) cs.HC (2853) cs.LG (42261) cs.RO (22134) cs.SY (3385) eess.IV (5002) eess.SY (3377) stat.ML (5523)
「cs.MM」カテゴリーアーカイブ
A Picture Is Worth a Graph: A Blueprint Debate Paradigm for Multimodal Reasoning
要約 この論文は、マルチエージェントの議論をマルチモーダル推論に導入することを目 … 続きを読む
MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions
要約 大規模なマルチモダリティ データセットは、大規模なビデオ言語モデルの成功を … 続きを読む
ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer
要約 特定のオーディオを使用してビデオをリップシンクすることは、仮想プレゼンター … 続きを読む
COM Kitchens: An Unedited Overhead-view Video Dataset as a Vision-Language Benchmark
要約 視覚と言語のコミュニティでは、手順に基づいたビデオの理解が注目を集めていま … 続きを読む
Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed Inputs
要約 マルチモーダル大規模言語モデル (MLLM) は、さまざまな視覚言語の理解 … 続きを読む
MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models
要約 音声と言語を共同で処理するマルチモーダルモデルは、音声理解において大きな可 … 続きを読む
Out-Of-Distribution Detection for Audio-visual Generalized Zero-Shot Learning: A General Framework
要約 一般化ゼロショット学習(GZSL)は、見たクラスと見たことのないクラスの両 … 続きを読む
PC$^2$: Pseudo-Classification Based Pseudo-Captioning for Noisy Correspondence Learning in Cross-Modal Retrieval
要約 クロスモーダル検索の領域では、マルチメディア内の多様なモダリティをシームレ … 続きを読む
Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed Inputs
要約 マルチモーダル大規模言語モデル(MLLM)は、様々な視覚言語理解・生成タス … 続きを読む