cs.MM」カテゴリーアーカイブ

A Dual-Module Denoising Approach with Curriculum Learning for Enhancing Multimodal Aspect-Based Sentiment Analysis

要約 マルチモーダル アスペクトベース感情分析 (MABSA) は、テキストと画 … 続きを読む

カテゴリー: cs.CV, cs.MM | コメントする

RoboMM: All-in-One Multimodal Large Model for Robotic Manipulation

要約 近年、ロボット工学は、より大きなモデルと大規模なデータセットの統合を通じて … 続きを読む

カテゴリー: cs.MM, cs.RO | コメントする

MoRAG — Multi-Fusion Retrieval Augmented Generation for Human Motion

要約 テキストベースの人間のモーション生成のための、新しいマルチパート融合ベース … 続きを読む

カテゴリー: cs.CV, cs.MM | コメントする

STIV: Scalable Text and Image Conditioned Video Generation

要約 ビデオ生成の分野は目覚ましい進歩を遂げていますが、堅牢でスケーラブルなモデ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | コメントする

AI TrackMate: Finally, Someone Who Will Give Your Music More Than Just ‘Sounds Great!’

要約 「ベッドルームプロデューサー」の台頭により、音楽制作が民主化される一方で、 … 続きを読む

カテゴリー: cs.HC, cs.LG, cs.MM, cs.SD, eess.AS | コメントする

Towards Controllable Speech Synthesis in the Era of Large Language Models: A Survey

要約 音声合成としても知られる Text-to-Speech (TTS) は、テ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM, cs.SD, eess.AS | コメントする

OmniEvalKit: A Modular, Lightweight Toolbox for Evaluating Large Language Model and its Omni-Extensions

要約 大規模言語モデル (LLM) の急速な進歩により、多言語サポートからドメイ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントする

LinVT: Empower Your Image-level Large Language Model to Understand Videos

要約 大規模言語モデル (LLM) はさまざまなタスクで広く使用されており、ビデ … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM | LinVT: Empower Your Image-level Large Language Model to Understand Videos はコメントを受け付けていません

Copy-Move Forgery Detection and Question Answering for Remote Sensing Image

要約 本稿では、リモートセンシング複写移動質問応答(RSCMQA)のタスクを紹介 … 続きを読む

カテゴリー: cs.CV, cs.MM | Copy-Move Forgery Detection and Question Answering for Remote Sensing Image はコメントを受け付けていません

AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information?

要約 近年、GPT-4o、Gemini 1.5 Pro、Reka Coreなどの … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM, cs.SD, eess.AS | AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? はコメントを受け付けていません