cs.MM」カテゴリーアーカイブ

CM-PIE: Cross-modal perception for interactive-enhanced audio-visual video parsing

要約 オーディオビジュアルビデオの解析は、弱いラベルを使用してセグメントレベルで … 続きを読む

カテゴリー: cs.CV, cs.MM, I.2.10, I.4.8 | CM-PIE: Cross-modal perception for interactive-enhanced audio-visual video parsing はコメントを受け付けていません

Layout Sequence Prediction From Noisy Mobile Modality

要約 軌道予測は、自動運転やロボット工学などの用途で歩行者の動きを理解する上で重 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM, cs.RO | Layout Sequence Prediction From Noisy Mobile Modality はコメントを受け付けていません

UniScene: Multi-Camera Unified Pre-training via 3D Scene Reconstruction

要約 マルチカメラ 3D 認識は、自動運転における著名な研究分野として浮上してお … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.RO | UniScene: Multi-Camera Unified Pre-training via 3D Scene Reconstruction はコメントを受け付けていません

Language Model Beats Diffusion — Tokenizer is Key to Visual Generation

要約 大規模言語モデル (LLM) は、言語の生成タスクでは主要なモデルですが、 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Language Model Beats Diffusion — Tokenizer is Key to Visual Generation はコメントを受け付けていません

Learning Language-guided Adaptive Hyper-modality Representation for Multimodal Sentiment Analysis

要約 マルチモーダル感情分析 (MSA) は、複数のソース (言語、ビデオ、音声 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Learning Language-guided Adaptive Hyper-modality Representation for Multimodal Sentiment Analysis はコメントを受け付けていません

RL-based Stateful Neural Adaptive Sampling and Denoising for Real-Time Path Tracing

要約 モンテカルロ パス トレースは、リアルな画像合成のための強力な技術ですが、 … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.MM | RL-based Stateful Neural Adaptive Sampling and Denoising for Real-Time Path Tracing はコメントを受け付けていません

Soft Convex Quantization: Revisiting Vector Quantization with Convex Optimization

要約 ベクトル量子化 (VQ) は、有益な離散潜在表現を抽出するためのディープ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM, math.OC | Soft Convex Quantization: Revisiting Vector Quantization with Convex Optimization はコメントを受け付けていません

A Large-scale Dataset for Audio-Language Representation Learning

要約 AIコミュニティは、大規模なマルチモーダルデータセットに後押しされ、強力な … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | A Large-scale Dataset for Audio-Language Representation Learning はコメントを受け付けていません

Zero-Shot Recommendations with Pre-Trained Large Language Models for Multimodal Nudging

要約 生成 AI の分野における最近の進歩を活用した、マルチモーダルな非定常コン … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG, cs.MM | Zero-Shot Recommendations with Pre-Trained Large Language Models for Multimodal Nudging はコメントを受け付けていません

Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning

要約 マルチモーダル タスクにおける有望な進歩にもかかわらず、現在の大規模マルチ … 続きを読む

カテゴリー: cs.AI, cs.CE, cs.CL, cs.CV, cs.MM | Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning はコメントを受け付けていません