cs.MM」カテゴリーアーカイブ

Video Seal: Open and Efficient Video Watermarking

要約 AI によって生成されたコンテンツと洗練されたビデオ編集ツールの急増により … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Video Seal: Open and Efficient Video Watermarking はコメントを受け付けていません

Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition

要約 マルチモーダル大規模言語モデル (MLLM) が進化するにつれて、より多用 … 続きを読む

カテゴリー: cs.CV, cs.MM | Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition はコメントを受け付けていません

Representing Long Volumetric Video with Temporal Gaussian Hierarchy

要約 この論文は、マルチビュー RGB ビデオから長いボリューム ビデオを再構成 … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.MM | Representing Long Volumetric Video with Temporal Gaussian Hierarchy はコメントを受け付けていません

PointTalk: Audio-Driven Dynamic Lip Point Cloud for 3D Gaussian-based Talking Head Synthesis

要約 任意の音声オーディオを使用したトーキングヘッド合成は、デジタル ヒューマン … 続きを読む

カテゴリー: cs.AI, cs.GR, cs.MM, cs.SD, eess.AS | PointTalk: Audio-Driven Dynamic Lip Point Cloud for 3D Gaussian-based Talking Head Synthesis はコメントを受け付けていません

A Dual-Module Denoising Approach with Curriculum Learning for Enhancing Multimodal Aspect-Based Sentiment Analysis

要約 マルチモーダル アスペクトベース感情分析 (MABSA) は、テキストと画 … 続きを読む

カテゴリー: cs.CV, cs.MM | A Dual-Module Denoising Approach with Curriculum Learning for Enhancing Multimodal Aspect-Based Sentiment Analysis はコメントを受け付けていません

RoboMM: All-in-One Multimodal Large Model for Robotic Manipulation

要約 近年、ロボット工学は、より大きなモデルと大規模なデータセットの統合を通じて … 続きを読む

カテゴリー: cs.MM, cs.RO | RoboMM: All-in-One Multimodal Large Model for Robotic Manipulation はコメントを受け付けていません

MoRAG — Multi-Fusion Retrieval Augmented Generation for Human Motion

要約 テキストベースの人間のモーション生成のための、新しいマルチパート融合ベース … 続きを読む

カテゴリー: cs.CV, cs.MM | MoRAG — Multi-Fusion Retrieval Augmented Generation for Human Motion はコメントを受け付けていません

STIV: Scalable Text and Image Conditioned Video Generation

要約 ビデオ生成の分野は目覚ましい進歩を遂げていますが、堅牢でスケーラブルなモデ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | STIV: Scalable Text and Image Conditioned Video Generation はコメントを受け付けていません

AI TrackMate: Finally, Someone Who Will Give Your Music More Than Just ‘Sounds Great!’

要約 「ベッドルームプロデューサー」の台頭により、音楽制作が民主化される一方で、 … 続きを読む

カテゴリー: cs.HC, cs.LG, cs.MM, cs.SD, eess.AS | AI TrackMate: Finally, Someone Who Will Give Your Music More Than Just ‘Sounds Great!’ はコメントを受け付けていません

Towards Controllable Speech Synthesis in the Era of Large Language Models: A Survey

要約 音声合成としても知られる Text-to-Speech (TTS) は、テ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM, cs.SD, eess.AS | Towards Controllable Speech Synthesis in the Era of Large Language Models: A Survey はコメントを受け付けていません