「cs.MM」カテゴリーアーカイブ

MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions

投稿日: 2024年8月7日作成者: jarxiv

要約大規模なマルチモダリティデータセットは、大規模なビデオ言語モデルの成功を … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer

投稿日: 2024年8月7日作成者: jarxiv

要約特定のオーディオを使用してビデオをリップシンクすることは、仮想プレゼンター … 続きを読む →

カテゴリー: cs.CV, cs.GR, cs.MM | コメントを受け付けていません

COM Kitchens: An Unedited Overhead-view Video Dataset as a Vision-Language Benchmark

投稿日: 2024年8月6日作成者: jarxiv

要約視覚と言語のコミュニティでは、手順に基づいたビデオの理解が注目を集めていま … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM | コメントを受け付けていません

Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed Inputs

投稿日: 2024年8月6日作成者: jarxiv

要約マルチモーダル大規模言語モデル (MLLM) は、さまざまな視覚言語の理解 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models

投稿日: 2024年8月5日作成者: jarxiv

要約音声と言語を共同で処理するマルチモーダルモデルは、音声理解において大きな可 … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Out-Of-Distribution Detection for Audio-visual Generalized Zero-Shot Learning: A General Framework

投稿日: 2024年8月5日作成者: jarxiv

要約一般化ゼロショット学習(GZSL)は、見たクラスと見たことのないクラスの両 … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS, eess.IV | コメントを受け付けていません

PC$^2$: Pseudo-Classification Based Pseudo-Captioning for Noisy Correspondence Learning in Cross-Modal Retrieval

投稿日: 2024年8月5日作成者: jarxiv

要約クロスモーダル検索の領域では、マルチメディア内の多様なモダリティをシームレ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.IR, cs.LG, cs.MM | コメントを受け付けていません

Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed Inputs

投稿日: 2024年8月5日作成者: jarxiv

要約マルチモーダル大規模言語モデル(MLLM)は、様々な視覚言語理解・生成タス … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Toward Automatic Relevance Judgment using Vision–Language Models for Image–Text Retrieval Evaluation

投稿日: 2024年8月5日作成者: jarxiv

要約 Vision–Language Models（VLM）は、様々 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.IR, cs.MM | コメントを受け付けていません

ChordSync: Conformer-Based Alignment of Chord Annotations to Music Audio

投稿日: 2024年8月4日作成者: jarxiv

要約西洋音楽の伝統において、和音は和声の主要な構成要素であり、音楽の基本的な側 … 続きを読む →

カテゴリー: 68P20, cs.LG, cs.MM, cs.SD, eess.AS, I.2.6 | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions

ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer

COM Kitchens: An Unedited Overhead-view Video Dataset as a Vision-Language Benchmark

Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed Inputs

MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models

Out-Of-Distribution Detection for Audio-visual Generalized Zero-Shot Learning: A General Framework

PC$^2$: Pseudo-Classification Based Pseudo-Captioning for Noisy Correspondence Learning in Cross-Modal Retrieval

Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed Inputs

Toward Automatic Relevance Judgment using Vision–Language Models for Image–Text Retrieval Evaluation

ChordSync: Conformer-Based Alignment of Chord Annotations to Music Audio

最近の投稿

最近のコメント

アーカイブ

カテゴリー