-
最近の投稿
- 3D Water Quality Mapping using Invariant Extended Kalman Filtering for Underwater Robot Localization
- Hybrid Visual Servoing of Tendon-driven Continuum Robots
- Embodying Control in Soft Multistable Grippers from morphofunctional co-design
- View-Invariant Policy Learning via Zero-Shot Novel View Synthesis
- ModSkill: Physical Character Skill Modularization
-
最近のコメント
表示できるコメントはありません。 cs.AI (34028) cs.CL (25726) cs.CR (2616) cs.CV (39965) cs.LG (39031) cs.RO (19850) cs.SY (3019) eess.IV (4757) eess.SY (3013) stat.ML (5150)
「cs.MM」カテゴリーアーカイブ
Distilling Implicit Multimodal Knowledge into Large Language Models for Zero-Resource Dialogue Generation
要約 マルチモーダルの知識を大規模な言語モデル(LLMS)に統合することは、対話 … 続きを読む
Efficient Vision Language Model Fine-tuning for Text-based Person Anomaly Search
要約 このペーパーでは、テキストベースの人の異常検索(TPA)に関するWWW 2 … 続きを読む
Long-tailed Medical Diagnosis with Relation-aware Representation Learning and Iterative Classifier Calibration
要約 最近、コンピューター支援診断により、有望なパフォーマンスが実証されており、 … 続きを読む
Seeing World Dynamics in a Nutshell
要約 私たちは、空間的に一時的に一貫した方法で、さりげなくキャプチャされたモノク … 続きを読む
LLMER: Crafting Interactive Extended Reality Worlds with JSON Data Generated by Large Language Models
要約 GPT-4のような大規模言語モデル(LLM)と拡張現実感(XR)技術の統合 … 続きを読む
DreamArtist++: Controllable One-Shot Text-to-Image Generation via Positive-Negative Adapter
要約 Imagenや安定した拡散モデルなどの最先端のテキストからイメージからイメ … 続きを読む
Inkspire: Supporting Design Exploration with Generative AI through Analogical Sketching
要約 テキストツーイメージ(T2I)AIモデルの能力に最近の進歩により、製品設計 … 続きを読む
When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding
要約 既存のコーデックは、固有の冗長性を排除して、圧縮のためのコンパクトな表現を … 続きを読む
MIDI-GPT: A Controllable Generative Model for Computer-Assisted Multitrack Music Composition
要約 コンピューター支援の音楽構成ワークフロー向けに設計された変圧器アーキテクチ … 続きを読む