「cs.MM」カテゴリーアーカイブ

UniScene: Multi-Camera Unified Pre-training via 3D Scene Reconstruction

投稿日: 2023年10月10日作成者: jarxiv

要約マルチカメラ 3D 認識は、自動運転における著名な研究分野として浮上してお … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.RO | コメントを受け付けていません

Language Model Beats Diffusion — Tokenizer is Key to Visual Generation

投稿日: 2023年10月10日作成者: jarxiv

要約大規模言語モデル (LLM) は、言語の生成タスクでは主要なモデルですが、 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

Learning Language-guided Adaptive Hyper-modality Representation for Multimodal Sentiment Analysis

投稿日: 2023年10月10日作成者: jarxiv

要約マルチモーダル感情分析 (MSA) は、複数のソース (言語、ビデオ、音声 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

RL-based Stateful Neural Adaptive Sampling and Denoising for Real-Time Path Tracing

投稿日: 2023年10月6日作成者: jarxiv

要約モンテカルロパストレースは、リアルな画像合成のための強力な技術ですが、 … 続きを読む →

カテゴリー: cs.CV, cs.GR, cs.MM | コメントを受け付けていません

Soft Convex Quantization: Revisiting Vector Quantization with Convex Optimization

投稿日: 2023年10月5日作成者: jarxiv

要約ベクトル量子化 (VQ) は、有益な離散潜在表現を抽出するためのディープ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM, math.OC | コメントを受け付けていません

A Large-scale Dataset for Audio-Language Representation Learning

投稿日: 2023年10月4日作成者: jarxiv

要約 AIコミュニティは、大規模なマルチモーダルデータセットに後押しされ、強力な … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Zero-Shot Recommendations with Pre-Trained Large Language Models for Multimodal Nudging

投稿日: 2023年10月3日作成者: jarxiv

要約生成 AI の分野における最近の進歩を活用した、マルチモーダルな非定常コン … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG, cs.MM | コメントを受け付けていません

Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning

投稿日: 2023年10月2日作成者: jarxiv

要約マルチモーダルタスクにおける有望な進歩にもかかわらず、現在の大規模マルチ … 続きを読む →

カテゴリー: cs.AI, cs.CE, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

A Large-scale Dataset for Audio-Language Representation Learning

投稿日: 2023年9月29日作成者: jarxiv

要約 AI コミュニティは、大規模なマルチモーダルデータセットを活用した強力な … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level Vision

投稿日: 2023年9月29日作成者: jarxiv

要約マルチモダリティ大規模言語モデル (MLLM) の急速な進化により、コンピ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

UniScene: Multi-Camera Unified Pre-training via 3D Scene Reconstruction

Language Model Beats Diffusion — Tokenizer is Key to Visual Generation

Learning Language-guided Adaptive Hyper-modality Representation for Multimodal Sentiment Analysis

RL-based Stateful Neural Adaptive Sampling and Denoising for Real-Time Path Tracing

Soft Convex Quantization: Revisiting Vector Quantization with Convex Optimization

A Large-scale Dataset for Audio-Language Representation Learning

Zero-Shot Recommendations with Pre-Trained Large Language Models for Multimodal Nudging

Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning

A Large-scale Dataset for Audio-Language Representation Learning

Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level Vision

最近の投稿

最近のコメント

アーカイブ

カテゴリー