cs.MM」カテゴリーアーカイブ

DreamArtist++: Controllable One-Shot Text-to-Image Generation via Positive-Negative Adapter

要約 Imagenや安定した拡散モデルなどの最先端のテキストからイメージからイメ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | DreamArtist++: Controllable One-Shot Text-to-Image Generation via Positive-Negative Adapter はコメントを受け付けていません

Inkspire: Supporting Design Exploration with Generative AI through Analogical Sketching

要約 テキストツーイメージ(T2I)AIモデルの能力に最近の進歩により、製品設計 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.HC, cs.MM | Inkspire: Supporting Design Exploration with Generative AI through Analogical Sketching はコメントを受け付けていません

When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding

要約 既存のコーデックは、固有の冗長性を排除して、圧縮のためのコンパクトな表現を … 続きを読む

カテゴリー: cs.CV, cs.MM | When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding はコメントを受け付けていません

MIDI-GPT: A Controllable Generative Model for Computer-Assisted Multitrack Music Composition

要約 コンピューター支援の音楽構成ワークフロー向けに設計された変圧器アーキテクチ … 続きを読む

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | MIDI-GPT: A Controllable Generative Model for Computer-Assisted Multitrack Music Composition はコメントを受け付けていません

Audio-Visual Deepfake Detection With Local Temporal Inconsistencies

要約 このペーパーでは、オーディオと視覚モダリティの間のきめの細かい時間的矛盾を … 続きを読む

カテゴリー: cs.CR, cs.CV, cs.MM, cs.SD, eess.AS | Audio-Visual Deepfake Detection With Local Temporal Inconsistencies はコメントを受け付けていません

MetaDecorator: Generating Immersive Virtual Tours through Multimodality

要約 Metadecoratorは、ユーザーが仮想スペースをパーソナライズできる … 続きを読む

カテゴリー: cs.AI, cs.ET, cs.HC, cs.MM | MetaDecorator: Generating Immersive Virtual Tours through Multimodality はコメントを受け付けていません

Mitigating GenAI-powered Evidence Pollution for Out-of-Context Multimodal Misinformation Detection

要約 大規模な生成的人工知能(Genai)モデルは大幅に成功しましたが、欺cep … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.CY, cs.MM | Mitigating GenAI-powered Evidence Pollution for Out-of-Context Multimodal Misinformation Detection はコメントを受け付けていません

Tune In, Act Up: Exploring the Impact of Audio Modality-Specific Edits on Large Audio Language Models in Jailbreak

要約 大規模言語モデル (LLM) は、さまざまな自然言語処理タスクにわたって優 … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.MM, cs.SD, eess.AS | Tune In, Act Up: Exploring the Impact of Audio Modality-Specific Edits on Large Audio Language Models in Jailbreak はコメントを受け付けていません

Long-Form Text-to-Music Generation with Adaptive Prompts: A Case of Study in Tabletop Role-Playing Games Soundtracks

要約 この論文では、テーブルトップ ロール プレイング ゲーム (TRPG) の … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.NE, cs.SD, eess.AS | Long-Form Text-to-Music Generation with Adaptive Prompts: A Case of Study in Tabletop Role-Playing Games Soundtracks はコメントを受け付けていません

Learning to Mask and Permute Visual Tokens for Vision Transformer Pre-Training

要約 自己監視型事前トレーニングの使用は、さまざまな視覚タスクのパフォーマンスを … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Learning to Mask and Permute Visual Tokens for Vision Transformer Pre-Training はコメントを受け付けていません