-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
ControlStyle: Text-Driven Stylized Image Generation Using Diffusion Priors
要約 最近、マルチメディア コミュニティは、特にテキストから画像への生成の分野で … 続きを読む
3DStyle-Diffusion: Pursuing Fine-grained Text-driven 3D Stylization with 2D Diffusion Models
要約 テキスト駆動のスタイル化による 3D コンテンツの作成は、マルチメディアお … 続きを読む
What Do I Hear? Generating Sounds for Visuals with ChatGPT
要約 この短いペーパーでは、ビジュアル メディアのリアルなサウンドスケープを生成 … 続きを読む
Rethinking Human Pose Estimation for Autonomous Driving with 3D Event Representations
要約 人間の姿勢推定は自動運転や自動駐車において重要な要素であり、人間の行動を予 … 続きを読む
Rethinking Event-based Human Pose Estimation with 3D Event Representations
要約 人間の姿勢推定は自動運転や自動駐車において重要な要素であり、人間の行動を予 … 続きを読む
Conversation Understanding using Relational Temporal Graph Neural Networks with Auxiliary Cross-Modality Interaction
要約 感情認識は人間の会話を理解するために重要なタスクです。 言語、音声、表情な … 続きを読む
MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and Uni-Modal Adapter
要約 言語モデル (LM) は、さまざまな 1D テキスト関連タスクにおいて優れ … 続きを読む
The Music Meta Ontology: a flexible semantic model for the interoperability of music metadata
要約 音楽メタデータのセマンティック記述は、情報検索や知識発見のために調整、統合 … 続きを読む
Hard to Track Objects with Irregular Motions and Similar Appearances? Make It Easier by Buffering the Matching Space
要約 不規則な動きと区別できない外観を持つ複数のオブジェクトを追跡するための C … 続きを読む