「cs.MM」カテゴリーアーカイブ

Conceptwm: A Diffusion Model Watermark for Concept Protection

投稿日: 2024年11月19日作成者: jarxiv

要約拡散モデルのパーソナライゼーション技術は、特定の概念を生成することに成功し … 続きを読む →

カテゴリー: cs.AI, cs.CR, cs.MM | コメントを受け付けていません

CMATH: Cross-Modality Augmented Transformer with Hierarchical Variational Distillation for Multimodal Emotion Recognition in Conversation

投稿日: 2024年11月18日作成者: jarxiv

要約会話中のマルチモーダル感情認識 (MER) は、マルチモーダル情報を統合す … 続きを読む →

カテゴリー: cs.CL, cs.MM | コメントを受け付けていません

A Low-Resolution Image is Worth 1×1 Words: Enabling Fine Image Super-Resolution with Transformers and TaylorShift

投稿日: 2024年11月18日作成者: jarxiv

要約トランスベースの超解像度 (SR) モデルは、最近画像再構成の品質を向上さ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Mitigating Hallucination in Multimodal Large Language Model via Hallucination-targeted Direct Preference Optimization

投稿日: 2024年11月18日作成者: jarxiv

要約マルチモーダル大規模言語モデル (MLLM) は幻覚を起こすことが知られて … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

Automatic Album Sequencing

投稿日: 2024年11月13日作成者: jarxiv

要約アルバムの順序付けは、アルバム制作プロセスの重要な部分です。最近、コレク … 続きを読む →

カテゴリー: 68T07, cs.AI, cs.CL, cs.LG, cs.MM, cs.SD, I.2.6 | コメントを受け付けていません

SAV-SE: Scene-aware Audio-Visual Speech Enhancement with Selective State Space Model

投稿日: 2024年11月13日作成者: jarxiv

要約音声強調はさまざまなアプリケーションで重要な役割を果たしており、視覚情報の … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Pseudo-triplet Guided Few-shot Composed Image Retrieval

投稿日: 2024年11月13日作成者: jarxiv

要約合成画像検索 (CIR) は、マルチモーダルクエリを使用してターゲット画 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Rendering-Oriented 3D Point Cloud Attribute Compression using Sparse Tensor-based Transformer

投稿日: 2024年11月13日作成者: jarxiv

要約 3D ビジュアライゼーション技術の進化により、デジタルコンテンツとのやり … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

A Hierarchical Compression Technique for 3D Gaussian Splatting Compression

投稿日: 2024年11月12日作成者: jarxiv

要約 3D ガウススプラッティング (GS) は、新しいビュー合成において優れ … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

A multi-purpose automatic editing system based on lecture semantics for remote education

投稿日: 2024年11月8日作成者: jarxiv

要約遠隔授業は、その利便性と安全性により、特にパンデミックのような極端な状況下 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

Conceptwm: A Diffusion Model Watermark for Concept Protection

CMATH: Cross-Modality Augmented Transformer with Hierarchical Variational Distillation for Multimodal Emotion Recognition in Conversation

A Low-Resolution Image is Worth 1×1 Words: Enabling Fine Image Super-Resolution with Transformers and TaylorShift

Mitigating Hallucination in Multimodal Large Language Model via Hallucination-targeted Direct Preference Optimization

Automatic Album Sequencing

SAV-SE: Scene-aware Audio-Visual Speech Enhancement with Selective State Space Model

Pseudo-triplet Guided Few-shot Composed Image Retrieval

Rendering-Oriented 3D Point Cloud Attribute Compression using Sparse Tensor-based Transformer

A Hierarchical Compression Technique for 3D Gaussian Splatting Compression

A multi-purpose automatic editing system based on lecture semantics for remote education

最近の投稿

最近のコメント

アーカイブ

カテゴリー