-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
A Survey on 3D Gaussian Splatting
要約 3D Gaussian Splatting(GS)は、明示的な輝きフィール … 続きを読む
VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control
要約 破損したビデオコンテンツを復元することを目的としたビデオInpaintin … 続きを読む
More than Memes: A Multimodal Topic Modeling Approach to Conspiracy Theories on Telegram
要約 ソーシャルメディアでの(オーディオ)視覚データの増加する有病率に対処し、こ … 続きを読む
A Multimodal Symphony: Integrating Taste and Sound through Generative AI
要約 ここ数十年で、神経科学的および心理的研究は、味と聴覚認識の間の直接的な関係 … 続きを読む
A Comprehensive Survey on Composed Image Retrieval
要約 Composed Image Retrieval(CIR)は、ユーザーが参 … 続きを読む
FoodMLLM-JP: Leveraging Multimodal Large Language Models for Japanese Recipe Generation
要約 レシピデータを用いた食品イメージの理解に関する研究は、そのデータの多様性と … 続きを読む
TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding
要約 ドメイン固有の定理を理解するには、多くの場合、単なるテキストベースの推論以 … 続きを読む
Language-Guided Diffusion Model for Visual Grounding
要約 視覚的に接地(VG)タスクには、明示的に対応する画像領域が提供される言語フ … 続きを読む
ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context
要約 視覚的なストーリーテリングには、キャラクターやシーンの一貫性を維持しながら … 続きを読む