-
最近の投稿
- Solving Multi-Agent Safe Optimal Control with Distributed Epigraph Form MARL
- Nearly Optimal Nonlinear Safe Control with BaS-SDRE
- Field Report on Ground Penetrating Radar for Localization at the Mars Desert Research Station
- LAPP: Large Language Model Feedback for Preference-Driven Reinforcement Learning
- CityWalker: Learning Embodied Urban Navigation from Web-Scale Videos
-
最近のコメント
表示できるコメントはありません。 cs.AI (36968) cs.CL (27986) cs.CV (42734) cs.HC (2830) cs.LG (41908) cs.RO (21895) cs.SY (3335) eess.IV (4980) eess.SY (3327) stat.ML (5485)
「cs.MM」カテゴリーアーカイブ
OmniEvalKit: A Modular, Lightweight Toolbox for Evaluating Large Language Model and its Omni-Extensions
要約 大規模言語モデル (LLM) の急速な進歩により、多言語サポートからドメイ … 続きを読む
LinVT: Empower Your Image-level Large Language Model to Understand Videos
要約 大規模言語モデル (LLM) はさまざまなタスクで広く使用されており、ビデ … 続きを読む
Copy-Move Forgery Detection and Question Answering for Remote Sensing Image
要約 本稿では、リモートセンシング複写移動質問応答(RSCMQA)のタスクを紹介 … 続きを読む
AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information?
要約 近年、GPT-4o、Gemini 1.5 Pro、Reka Coreなどの … 続きを読む
DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder
要約 最近の研究により、音声による話し顔の生成は大幅に進歩しましたが、生成された … 続きを読む
Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings
要約 既存の Multimoal Large Language Model (M … 続きを読む
LongVALE: Vision-Audio-Language-Event Benchmark Towards Time-Aware Omni-Modal Perception of Long Videos
要約 ビデオの理解は目覚ましい進歩を遂げているにもかかわらず、ほとんどの取り組み … 続きを読む
WavChat: A Survey of Spoken Dialogue Models
要約 GPT-4o などのシステムに代表される音声対話モデルの最近の進歩は、音声 … 続きを読む
Automatic Album Sequencing
要約 アルバムの順序付けは、アルバム制作プロセスの重要な部分です。 最近、コレク … 続きを読む