cs.MM」カテゴリーアーカイブ

ChordSync: Conformer-Based Alignment of Chord Annotations to Music Audio

要約 西洋音楽の伝統において、和音は和声の主要な構成要素であり、音楽の基本的な側 … 続きを読む

カテゴリー: 68P20, cs.LG, cs.MM, cs.SD, eess.AS, I.2.6 | ChordSync: Conformer-Based Alignment of Chord Annotations to Music Audio はコメントを受け付けていません

GalleryGPT: Analyzing Paintings with Large Multimodal Models

要約 作品分析は、個人の美的感性を豊かにし、批評的思考能力を促進する、美術鑑賞の … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | GalleryGPT: Analyzing Paintings with Large Multimodal Models はコメントを受け付けていません

Learned Compression of Point Cloud Geometry and Attributes in a Single Model through Multimodal Rate-Control

要約 点群圧縮は、必要なストリーミングデータレートを大幅に削減するため、ボリュー … 続きを読む

カテゴリー: cs.CV, cs.MM, eess.IV | Learned Compression of Point Cloud Geometry and Attributes in a Single Model through Multimodal Rate-Control はコメントを受け付けていません

Towards Assessing Data Replication in Music Generation with Music Similarity Metrics on Raw Audio

要約 音楽生成における最近の進歩により、創造的な音楽プロセス、現在のビジネス モ … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | Towards Assessing Data Replication in Music Generation with Music Similarity Metrics on Raw Audio はコメントを受け付けていません

KeyVideoLLM: Towards Large-scale Video Keyframe Selection

要約 最近、Web ビデオの台頭により、大規模なビデオ データセットの管理と理解 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | KeyVideoLLM: Towards Large-scale Video Keyframe Selection はコメントを受け付けていません

Can LLMs ‘Reason’ in Music? An Evaluation of LLMs’ Capability of Music Understanding and Generation

要約 言語に似た記号音楽は、個別の記号でエンコードできます。 最近の研究では、G … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | Can LLMs ‘Reason’ in Music? An Evaluation of LLMs’ Capability of Music Understanding and Generation はコメントを受け付けていません

Open-Vocabulary Audio-Visual Semantic Segmentation

要約 オーディオビジュアル セマンティック セグメンテーション (AVSS) は … 続きを読む

カテゴリー: cs.AI, cs.MM | Open-Vocabulary Audio-Visual Semantic Segmentation はコメントを受け付けていません

Learning Video Context as Interleaved Multimodal Sequences

要約 映画などのナラティブビデオは、その豊富なコンテキスト (キャラクター、会話 … 続きを読む

カテゴリー: cs.CV, cs.MM | Learning Video Context as Interleaved Multimodal Sequences はコメントを受け付けていません

Versatile audio-visual learning for emotion recognition

要約 現在のオーディオビジュアル感情認識モデルのほとんどは、実際のアプリケーショ … 続きを読む

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | Versatile audio-visual learning for emotion recognition はコメントを受け付けていません

Rethinking Radiology Report Generation via Causal Inspired Counterfactual Augmentation

要約 Radiology Report Generation (RRG) は、生 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | Rethinking Radiology Report Generation via Causal Inspired Counterfactual Augmentation はコメントを受け付けていません