cs.MM」カテゴリーアーカイブ

Where Do We Go from Here? Multi-scale Allocentric Relational Inference from Natural Spatial Descriptions

要約 自然言語でルートを伝達する場合、{\em 獲得され​​た空間知識} の概念 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.MM | Where Do We Go from Here? Multi-scale Allocentric Relational Inference from Natural Spatial Descriptions はコメントを受け付けていません

Gradient-Guided Modality Decoupling for Missing-Modality Robustness

要約 不完全な入力データ (モダリティの欠落) を使用したマルチモーダル学習は実 … 続きを読む

カテゴリー: cs.CV, cs.MM | Gradient-Guided Modality Decoupling for Missing-Modality Robustness はコメントを受け付けていません

SPC-NeRF: Spatial Predictive Compression for Voxel Based Radiance Field

要約 Neural Radiance Field (NeRF) を明示的なボクセ … 続きを読む

カテゴリー: cs.CV, cs.MM | SPC-NeRF: Spatial Predictive Compression for Voxel Based Radiance Field はコメントを受け付けていません

Seeing is Believing: Mitigating Hallucination in Large Vision-Language Models via CLIP-Guided Decoding

要約 Large Vision-Language Model (LVLM) は物 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | Seeing is Believing: Mitigating Hallucination in Large Vision-Language Models via CLIP-Guided Decoding はコメントを受け付けていません

A multimodal dynamical variational autoencoder for audiovisual speech representation learning

要約 この論文では、教師なし視聴覚音声表現学習に適用されるマルチモーダルで動的 … 続きを読む

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | A multimodal dynamical variational autoencoder for audiovisual speech representation learning はコメントを受け付けていません

Unified Hallucination Detection for Multimodal Large Language Models

要約 マルチモーダル タスクの大幅な進歩にも関わらず、マルチモーダル大規模言語モ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG, cs.MM | Unified Hallucination Detection for Multimodal Large Language Models はコメントを受け付けていません

Evaluating Image Review Ability of Vision Language Models

要約 大規模ビジョン言語モデル (LVLM) は、単一のモデルで画像とテキスト入 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Evaluating Image Review Ability of Vision Language Models はコメントを受け付けていません

Unified Hallucination Detection for Multimodal Large Language Models

要約 マルチモーダル タスクの大幅な進歩にも関わらず、マルチモーダル大規模言語モ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG, cs.MM | Unified Hallucination Detection for Multimodal Large Language Models はコメントを受け付けていません

Generative Cross-Modal Retrieval: Memorizing Images in Multimodal Language Models for Retrieval and Beyond

要約 生成言語モデルの最近の進歩により、文書から知識を記憶し、知識を思い出してユ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.IR, cs.MM | Generative Cross-Modal Retrieval: Memorizing Images in Multimodal Language Models for Retrieval and Beyond はコメントを受け付けていません

UniScene: Multi-Camera Unified Pre-training via 3D Scene Reconstruction

要約 マルチカメラ 3D 認識は、自動運転における著名な研究分野として浮上してお … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.RO | UniScene: Multi-Camera Unified Pre-training via 3D Scene Reconstruction はコメントを受け付けていません