-
最近の投稿
- KISS-Matcher: Fast and Robust Point Cloud Registration Revisited
- Unpacking Failure Modes of Generative Policies: Runtime Monitoring of Consistency and Progress
- Mode-GS: Monocular Depth Guided Anchored 3D Gaussian Splatting for Robust Ground-View Scene Rendering
- A Universal Formulation for Path-Parametric Planning and Control
- Next Best Sense: Guiding Vision and Touch with FisherRF for 3D Gaussian Splatting
-
最近のコメント
表示できるコメントはありません。 cs.AI (27775) cs.CL (20990) cs.CR (2176) cs.CV (34489) cs.LG (32518) cs.RO (15916) cs.SY (2472) eess.IV (4231) eess.SY (2466) stat.ML (4356)
「cs.MM」カテゴリーアーカイブ
Sound Source Localization is All about Cross-Modal Alignment
要約 人間は、音源定位と呼ばれる、視覚的なシーンにおける音源の方向を容易に認識で … 続きを読む
MAGIC-TBR: Multiview Attention Fusion for Transformer-based Bodily Behavior Recognition in Group Settings
要約 身体行動言語は重要な社会的合図であり、その自動分析は人工知能システムの理解 … 続きを読む
AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models
要約 視聴覚表現学習は、聴覚情報と視覚情報の相関関係を利用して、人間のような知覚 … 続きを読む
Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge Graph Completion
要約 ビジュアルテキストの事実知識を整理するマルチモーダル ナレッジ グラフ ( … 続きを読む
Beyond Domain Gap: Exploiting Subjectivity in Sketch-Based Person Retrieval
要約 個人の再識別 (re-ID) には、高密度に分散されたカメラが必要です。 … 続きを読む
Spoken Humanoid Embodied Conversational Agents in Mobile Serious Games: A Usability Assessment
要約 この論文では、音声ヒューマノイド肉体型会話エージェント (HECAs) が … 続きを読む
Usability Evaluation of Spoken Humanoid Embodied Conversational Agents in Mobile Serious Games
要約 この論文では、音声ヒューマノイド肉体型会話エージェント (HECAs) が … 続きを読む
A Survey on Interpretable Cross-modal Reasoning
要約 近年、さまざまなモダリティを超えて理解および推論するプロセスであるクロスモ … 続きを読む
Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning
要約 マルチモーダル タスクにおける有望な進歩にもかかわらず、現在の大規模マルチ … 続きを読む
GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Accurate Speech Emotion Recognition
要約 対照的クロスモダリティ事前トレーニングは、最近さまざまな分野で目覚ましい成 … 続きを読む