-
最近の投稿
- Enhancing Trust in Autonomous Agents: An Architecture for Accountability and Explainability through Blockchain and Large Language Models
- $\mathcal{L}_1$Quad: $\mathcal{L}_1$ Adaptive Augmentation of Geometric Control for Agile Quadrotors with Performance Guarantees
- Scalable and low-cost remote lab platforms: Teaching industrial robotics using open-source tools and understanding its social implications
- Tabletop Object Rearrangement: Structure, Complexity, and Efficient Combinatorial Search-Based Solutions
- AdaCred: Adaptive Causal Decision Transformers with Feature Crediting
-
最近のコメント
表示できるコメントはありません。 cs.AI (31312) cs.CL (23684) cs.CR (2432) cs.CV (37678) cs.LG (36192) cs.RO (18300) cs.SY (2805) eess.IV (4529) eess.SY (2799) stat.ML (4795)
「cs.MM」カテゴリーアーカイブ
A Dual-Module Denoising Approach with Curriculum Learning for Enhancing Multimodal Aspect-Based Sentiment Analysis
要約 マルチモーダル アスペクトベース感情分析 (MABSA) は、テキストと画 … 続きを読む
RoboMM: All-in-One Multimodal Large Model for Robotic Manipulation
要約 近年、ロボット工学は、より大きなモデルと大規模なデータセットの統合を通じて … 続きを読む
MoRAG — Multi-Fusion Retrieval Augmented Generation for Human Motion
要約 テキストベースの人間のモーション生成のための、新しいマルチパート融合ベース … 続きを読む
STIV: Scalable Text and Image Conditioned Video Generation
要約 ビデオ生成の分野は目覚ましい進歩を遂げていますが、堅牢でスケーラブルなモデ … 続きを読む
AI TrackMate: Finally, Someone Who Will Give Your Music More Than Just ‘Sounds Great!’
要約 「ベッドルームプロデューサー」の台頭により、音楽制作が民主化される一方で、 … 続きを読む
Towards Controllable Speech Synthesis in the Era of Large Language Models: A Survey
要約 音声合成としても知られる Text-to-Speech (TTS) は、テ … 続きを読む
OmniEvalKit: A Modular, Lightweight Toolbox for Evaluating Large Language Model and its Omni-Extensions
要約 大規模言語モデル (LLM) の急速な進歩により、多言語サポートからドメイ … 続きを読む
LinVT: Empower Your Image-level Large Language Model to Understand Videos
要約 大規模言語モデル (LLM) はさまざまなタスクで広く使用されており、ビデ … 続きを読む
Copy-Move Forgery Detection and Question Answering for Remote Sensing Image
要約 本稿では、リモートセンシング複写移動質問応答(RSCMQA)のタスクを紹介 … 続きを読む