-
最近の投稿
- Design of a Visual Pose Estimation Algorithm for Moon Landing
- A novel step-by-step procedure for the kinematic calibration of robots using a single draw-wire encoder
- Ultra-High-Frequency Harmony: mmWave Radar and Event Camera Orchestrate Accurate Drone Landing
- Geometric Freeze-Tag Problem
- A Dual-Motor Actuator for Ceiling Robots with High Force and High Speed Capabilities
-
最近のコメント
表示できるコメントはありません。 cs.AI (34107) cs.CL (25783) cs.CR (2623) cs.CV (40027) cs.LG (39092) cs.RO (19895) cs.SY (3026) eess.IV (4764) eess.SY (3020) stat.ML (5162)
「cs.MM」カテゴリーアーカイブ
RoboMM: All-in-One Multimodal Large Model for Robotic Manipulation
要約 近年、ロボット工学は、より大きなモデルと大規模なデータセットの統合を通じて … 続きを読む
MoRAG — Multi-Fusion Retrieval Augmented Generation for Human Motion
要約 テキストベースの人間のモーション生成のための、新しいマルチパート融合ベース … 続きを読む
STIV: Scalable Text and Image Conditioned Video Generation
要約 ビデオ生成の分野は目覚ましい進歩を遂げていますが、堅牢でスケーラブルなモデ … 続きを読む
AI TrackMate: Finally, Someone Who Will Give Your Music More Than Just ‘Sounds Great!’
要約 「ベッドルームプロデューサー」の台頭により、音楽制作が民主化される一方で、 … 続きを読む
Towards Controllable Speech Synthesis in the Era of Large Language Models: A Survey
要約 音声合成としても知られる Text-to-Speech (TTS) は、テ … 続きを読む
OmniEvalKit: A Modular, Lightweight Toolbox for Evaluating Large Language Model and its Omni-Extensions
要約 大規模言語モデル (LLM) の急速な進歩により、多言語サポートからドメイ … 続きを読む
LinVT: Empower Your Image-level Large Language Model to Understand Videos
要約 大規模言語モデル (LLM) はさまざまなタスクで広く使用されており、ビデ … 続きを読む
Copy-Move Forgery Detection and Question Answering for Remote Sensing Image
要約 本稿では、リモートセンシング複写移動質問応答(RSCMQA)のタスクを紹介 … 続きを読む
AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information?
要約 近年、GPT-4o、Gemini 1.5 Pro、Reka Coreなどの … 続きを読む
DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder
要約 最近の研究により、音声による話し顔の生成は大幅に進歩しましたが、生成された … 続きを読む