cs.MM」カテゴリーアーカイブ

Automatic Album Sequencing

要約 アルバムの順序付けは、アルバム制作プロセスの重要な部分です。 最近、コレク … 続きを読む

カテゴリー: 68T07, cs.AI, cs.CL, cs.LG, cs.MM, cs.SD, I.2.6 | Automatic Album Sequencing はコメントを受け付けていません

SAV-SE: Scene-aware Audio-Visual Speech Enhancement with Selective State Space Model

要約 音声強調はさまざまなアプリケーションで重要な役割を果たしており、視覚情報の … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | SAV-SE: Scene-aware Audio-Visual Speech Enhancement with Selective State Space Model はコメントを受け付けていません

Pseudo-triplet Guided Few-shot Composed Image Retrieval

要約 合成画像検索 (CIR) は、マルチモーダル クエリを使用してターゲット画 … 続きを読む

カテゴリー: cs.CV, cs.MM | Pseudo-triplet Guided Few-shot Composed Image Retrieval はコメントを受け付けていません

Rendering-Oriented 3D Point Cloud Attribute Compression using Sparse Tensor-based Transformer

要約 3D ビジュアライゼーション技術の進化により、デジタル コンテンツとのやり … 続きを読む

カテゴリー: cs.CV, cs.MM | Rendering-Oriented 3D Point Cloud Attribute Compression using Sparse Tensor-based Transformer はコメントを受け付けていません

A Hierarchical Compression Technique for 3D Gaussian Splatting Compression

要約 3D ガウス スプラッティング (GS) は、新しいビュー合成において優れ … 続きを読む

カテゴリー: cs.CV, cs.MM | A Hierarchical Compression Technique for 3D Gaussian Splatting Compression はコメントを受け付けていません

A multi-purpose automatic editing system based on lecture semantics for remote education

要約 遠隔授業は、その利便性と安全性により、特にパンデミックのような極端な状況下 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | A multi-purpose automatic editing system based on lecture semantics for remote education はコメントを受け付けていません

Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models

要約 最近、単一の統合モデルを使用してさまざまなオーディオ タスクに同時に取り組 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS | Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models はコメントを受け付けていません

Long-Form Text-to-Music Generation with Adaptive Prompts: A Case of Study in Tabletop Role-Playing Games Soundtracks

要約 この論文では、テーブルトップ ロール プレイング ゲーム (TRPG) の … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.NE, cs.SD, eess.AS | Long-Form Text-to-Music Generation with Adaptive Prompts: A Case of Study in Tabletop Role-Playing Games Soundtracks はコメントを受け付けていません

Learning to Unify Audio, Visual and Text for Audio-Enhanced Multilingual Visual Answer Localization

要約 多言語ビジュアル回答ローカリゼーション (MVAL) の目標は、特定の多言 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.HC, cs.IR, cs.MM | Learning to Unify Audio, Visual and Text for Audio-Enhanced Multilingual Visual Answer Localization はコメントを受け付けていません

3D Audio-Visual Segmentation

要約 シーン中の発音体を認識することは、具現化AIにおける長年の課題であり、ロボ … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | 3D Audio-Visual Segmentation はコメントを受け付けていません