「cs.MM」カテゴリーアーカイブ

Frechet Music Distance: A Metric For Generative Symbolic Music Evaluation

投稿日: 2025年1月17日作成者: jarxiv

要約この論文では、コンピュータービジョンの Frechet Inceptio … 続きを読む →

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Metric Learning with Progressive Self-Distillation for Audio-Visual Embedding Learning

投稿日: 2025年1月17日作成者: jarxiv

要約メトリクス学習はサンプルを埋め込み空間に投影し、そこで学習された表現に基づ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.IR, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Multimodal LLMs Can Reason about Aesthetics in Zero-Shot

投稿日: 2025年1月16日作成者: jarxiv

要約我々は、芸術作品の美しさを評価するためにマルチモーダルLLM（MLLM）の … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

Audio-visual Deepfake Detection With Local Temporal Inconsistencies

投稿日: 2025年1月15日作成者: jarxiv

要約この論文では、オーディオとビジュアルのモダリティ間のきめ細かい時間的不一致 … 続きを読む →

カテゴリー: cs.CR, cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Model

投稿日: 2025年1月14日作成者: jarxiv

要約 Large Audio-Language Model (LALM) は、音 … 続きを読む →

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

The Sound of Water: Inferring Physical Properties from Pouring Liquids

投稿日: 2025年1月14日作成者: jarxiv

要約私たちは、視聴覚観察と、液体を注ぐという平凡だが興味深い日常活動の基礎とな … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

OneLLM: One Framework to Align All Modalities with Language

投稿日: 2025年1月10日作成者: jarxiv

要約マルチモーダル大規模言語モデル (MLLM) は、その強力なマルチモーダル … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Rendering-Oriented 3D Point Cloud Attribute Compression using Sparse Tensor-based Transformer

投稿日: 2025年1月10日作成者: jarxiv

要約 3D ビジュアライゼーション技術の進化により、デジタルコンテンツとのやり … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Unified Coding for Both Human Perception and Generalized Machine Analytics with CLIP Supervision

投稿日: 2025年1月9日作成者: jarxiv

要約デコードされたビットストリームは通常、人間またはマシンのニーズにのみ対応し … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Visual question answering: from early developments to recent advances — a survey

投稿日: 2025年1月8日作成者: jarxiv

要約 Visual Question Answering (VQA) は、特徴抽 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

Frechet Music Distance: A Metric For Generative Symbolic Music Evaluation

Metric Learning with Progressive Self-Distillation for Audio-Visual Embedding Learning

Multimodal LLMs Can Reason about Aesthetics in Zero-Shot

Audio-visual Deepfake Detection With Local Temporal Inconsistencies

Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Model

The Sound of Water: Inferring Physical Properties from Pouring Liquids

OneLLM: One Framework to Align All Modalities with Language

Rendering-Oriented 3D Point Cloud Attribute Compression using Sparse Tensor-based Transformer

Unified Coding for Both Human Perception and Generalized Machine Analytics with CLIP Supervision

Visual question answering: from early developments to recent advances — a survey

最近の投稿

最近のコメント

アーカイブ

カテゴリー