-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
MoRAG — Multi-Fusion Retrieval Augmented Generation for Human Motion
要約 テキストベースの人間のモーション生成のための、新しいマルチパート融合ベース … 続きを読む
STIV: Scalable Text and Image Conditioned Video Generation
要約 ビデオ生成の分野は目覚ましい進歩を遂げていますが、堅牢でスケーラブルなモデ … 続きを読む
AI TrackMate: Finally, Someone Who Will Give Your Music More Than Just ‘Sounds Great!’
要約 「ベッドルームプロデューサー」の台頭により、音楽制作が民主化される一方で、 … 続きを読む
Towards Controllable Speech Synthesis in the Era of Large Language Models: A Survey
要約 音声合成としても知られる Text-to-Speech (TTS) は、テ … 続きを読む
OmniEvalKit: A Modular, Lightweight Toolbox for Evaluating Large Language Model and its Omni-Extensions
要約 大規模言語モデル (LLM) の急速な進歩により、多言語サポートからドメイ … 続きを読む
LinVT: Empower Your Image-level Large Language Model to Understand Videos
要約 大規模言語モデル (LLM) はさまざまなタスクで広く使用されており、ビデ … 続きを読む
Copy-Move Forgery Detection and Question Answering for Remote Sensing Image
要約 本稿では、リモートセンシング複写移動質問応答(RSCMQA)のタスクを紹介 … 続きを読む
AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information?
要約 近年、GPT-4o、Gemini 1.5 Pro、Reka Coreなどの … 続きを読む
DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder
要約 最近の研究により、音声による話し顔の生成は大幅に進歩しましたが、生成された … 続きを読む
Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings
要約 既存の Multimoal Large Language Model (M … 続きを読む