cs.MM」カテゴリーアーカイブ

Video-Guided Foley Sound Generation with Multimodal Controls

要約 ビデオのサウンド エフェクトを生成するには、多くの場合、現実のソースから大 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Video-Guided Foley Sound Generation with Multimodal Controls はコメントを受け付けていません

Health AI Developer Foundations

要約 堅牢な医療機械学習 (ML) モデルは、臨床研究を加速し、ワークフローと結 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM, eess.IV | Health AI Developer Foundations はコメントを受け付けていません

HARP: A Large-Scale Higher-Order Ambisonic Room Impulse Response Dataset

要約 この寄稿では、イメージ ソース メソッドを使用して作成された 7 次アンビ … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | HARP: A Large-Scale Higher-Order Ambisonic Room Impulse Response Dataset はコメントを受け付けていません

VideoAutoArena: An Automated Arena for Evaluating Large Multimodal Models in Video Analysis through User Simulation

要約 高度なビデオ分析機能を備えた大規模マルチモーダル モデル (LMM) が、 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | VideoAutoArena: An Automated Arena for Evaluating Large Multimodal Models in Video Analysis through User Simulation はコメントを受け付けていません

Identity Preserving 3D Head Stylization with Multiview Score Distillation

要約 3D 頭部の様式化により、リアルな顔の特徴が芸術的な表現に変換され、ゲーム … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG, cs.MM | Identity Preserving 3D Head Stylization with Multiview Score Distillation はコメントを受け付けていません

Conceptwm: A Diffusion Model Watermark for Concept Protection

要約 拡散モデルのパーソナライゼーション技術は、特定の概念を生成することに成功し … 続きを読む

カテゴリー: cs.AI, cs.CR, cs.MM | Conceptwm: A Diffusion Model Watermark for Concept Protection はコメントを受け付けていません

CMATH: Cross-Modality Augmented Transformer with Hierarchical Variational Distillation for Multimodal Emotion Recognition in Conversation

要約 会話中のマルチモーダル感情認識 (MER) は、マルチモーダル情報を統合す … 続きを読む

カテゴリー: cs.CL, cs.MM | CMATH: Cross-Modality Augmented Transformer with Hierarchical Variational Distillation for Multimodal Emotion Recognition in Conversation はコメントを受け付けていません

A Low-Resolution Image is Worth 1×1 Words: Enabling Fine Image Super-Resolution with Transformers and TaylorShift

要約 トランスベースの超解像度 (SR) モデルは、最近画像再構成の品質を向上さ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | A Low-Resolution Image is Worth 1×1 Words: Enabling Fine Image Super-Resolution with Transformers and TaylorShift はコメントを受け付けていません

Mitigating Hallucination in Multimodal Large Language Model via Hallucination-targeted Direct Preference Optimization

要約 マルチモーダル大規模言語モデル (MLLM) は幻覚を起こすことが知られて … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Mitigating Hallucination in Multimodal Large Language Model via Hallucination-targeted Direct Preference Optimization はコメントを受け付けていません

Automatic Album Sequencing

要約 アルバムの順序付けは、アルバム制作プロセスの重要な部分です。 最近、コレク … 続きを読む

カテゴリー: 68T07, cs.AI, cs.CL, cs.LG, cs.MM, cs.SD, I.2.6 | Automatic Album Sequencing はコメントを受け付けていません